机器学习基础概念与算法

最新推荐文章于 2024-07-30 01:28:06 发布

u012417757

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量2.3k

点赞数

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/u012417757/article/details/78343517

版权

1.概念与术语

机器学习领域和数据库领域，是数据挖掘的两大支撑。数据库领域的研究为数据挖掘提供数据管理技术，机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学的研究成果，通常需要机器学习研究来形成有效的学习算法。

学习：如果一个系统能够通过执行某种过程而改进它自身的性能，就是学习。
机器学习是机器具有智能的重要标志，同时也是机器获得知识的根本途径。机器学习是人工智能应用继专家系统后的又一重要研究领域。

学习系统有两个主要组成部分：环境、知识库，分别代表外界信息来源和学习成果。加之，学习环节、执行环节，反应了学习系统是一个不断反复的过程。
模型：也叫学习器。
分类：预测的结果是离散值。
回归：预测结果是连续值。
归纳：特殊到一般的泛化过程。
演绎：是一般到特殊的特化过程。
假设空间：所有可能取值的集合。学习就是在假设空间中搜索。
版本空间：与训练集一致（即对所有训练样本能够正确判断）的假设集合。
归纳偏好（inductive bias）：算法在学习过程中对某种类型假设的偏好。当版本空间很多时，会选择其中一个符合偏好的。算法的归纳偏好是否与问题本身匹配，大多数时候决定了算法能否取得更好的性能。
奥卡姆剃刀：自然科学研究中最基本的原则。“若有多个假设与观察者一致，选最简单那个”。更平滑意味着更简单。
NFL定理：所有算法在期望性相同，跟随机胡猜差不多。前提：所有问题出现的机会相同、或同等重要。（但实际情形并不是这样）。其寓意为：脱离问题看算法好坏，无意义。
多释原则：保留与经验观察一致的所有解释。这与集成学习的研究更加吻合。（由古希腊哲学家伊壁鸠鲁在公元前300年前后提出）

引用块内容

机器学习的问题可归结为搜索问题，而算法本质是寻找一个最优解（设计一个函数），即一种优化算法。以这个函数的最大值（或最小值）作为学习目标。因此，在考虑解空间中一个可接受解的时候，搜索策略是十分必要的。

根据被学习对象的结构不同，分为：结构化机器学习、非结构化机器学习。如果被学习的对象集合用关系型数据库形式表示，就称为结构化。
结构化机器学习，又可根据对象的数学性质不同，分为：统计机器学习、符号机器学习。尽管，它们使用的数学基函数、搜索策略、搜索目标不完全相同，但都可以理解为一种优化算法。

ICML：国际机器学习会议
NIPS：国际神经信息处理系统会议
COLT：国际学习理论会议

算法分类图

1.1发展

早期计算机科学研究认为：计算机不可能完成事先没有显式编程好的任务。
人工智能之父：萨缪尔，在1952年在IBM公司研制了一个西洋跳棋程序，有自学能力，不断提高弈棋水平，下赢了自己。发明了“机器学习”这个词。
最早，是推理期：基于符号知识表示、通过演绎推理。
之后，是知识期：基于符号知识表示、通过获取和利用领域知识来建立专家系统。但是发现仅具有逻辑推理能力，是远远不能实现人工智能的。必须使机器拥有知识。
然后，到学习期。大量专家系统问世。“知识工程”之父获图灵奖。但又遇到“知识工程瓶颈”，意思到把人总结出来的知识教给机器很困难。
最后，想到了让机器自己学习知识。

“从样例中学习”在二十世纪八十年代成为主流。两大流派：符号主义学习、基于神经网络的连接学习。

1.1.1.符号主义学习

代表包括：决策树、基于逻辑的学习。
决策树学习：以信息论为基础，以信息熵的最小化为目标。直接模拟了人类对概念进行判定的树形流程。（简单易用）
基于逻辑学习：代表是归纳逻辑程序设计（ILP）。是机器学习与逻辑程序设计的交叉。使用一阶逻辑（谓词逻辑）进行知识表示。通过修改和扩充逻辑表达式完成对数据的归纳。
缺点是：由于表示能力太强，直接导致假设空间过大、复杂度极高。因此问题规模稍大就难以有效学习。

1.1.2.连接主义学习（connection）

就是基于神经网络的连接学习。
最早，神经网络只能处理线性分类，对异或问题都无法处理。
连接注意学习产生的是黑箱模型，因此从知识获取的角度上看，存在弱点。且存在的最大局限是：试错性。简单说，就是学习过程涉及大量参数，而参数的设置缺乏理论指导，主要靠手工调参。
21世纪初，掀起了以“深度学习”为名的热潮。狭义上看，就是很多层的神经网络。在涉及语音、图像等复杂对象的应用中，深度学习技术取得优越性能。降低了使用者门槛。（只要把参数调好，性能就好）

1.1.3.统计学习

代表性技术：支持向量机（SVM）、核方法（kernel method）
与上述连接主义学习有密切联系。在支持向量机被接受后，核技巧被用到机器学习的几乎每一个角落，核方法也逐渐成为机器学习的基本内容之一。

1.2机器学习策略

机械学习（记忆、不推理）、传授学习（指导式学习）、演绎学习（演绎推理：三段论）、归纳学习、类比学习（相似性）、解释学习。

1、机械学习（rote learning）
策略是记忆，不需要任何推理。它把环境提供的知识存储起来，外界输入知识的表示方式与内部表示方式完全一致。
以后的工作就是检索，不需要计算推理。
设计考虑问题：存储结构、环境的稳定性和存储信息的适用性、存储和计算的平衡3个问题。适用于相对稳定、输入输出模型相对固定的系统中。

2、传授学习（指导式学习：learning by being told、示教学习）
外界输入知识的表达式与内部表达式不完全一致，系统需要一点翻译、转化、评价和推理。
从指导者那得到建议，经解释、操作化、归并后，可能产生某些问题。因此必须对新知识进行评价。
通过检查来识别当新知识加入到知识库中时，是否会引起矛盾。常用的方法还有让系统使用这些新知识来执行某些任务，然后观察其是否能正常执行。

3、演绎学习（deductive learning）
以演绎推理为基础的学习。从已知的一般性知识出发，推出已知知识中适合于某些个别情况的结论。即通过给定的知识进行演绎的保真推理，存储有用的结论。
核心是三段论：大前提、小前提、结论。结论是由大前提推出的，并且适合小前提的判断。

4、归纳学习（inductive learning）
可分为有无导师，根据训练数据是否拥有标记信息区分。分类、回归是有导师（监督学习）的代表，聚类是无导师（无监督学习）的代表。
有导师又称为示例学习（learning from example），提供一组正例和反例，学习者归纳出一个总的概念描述，使其覆盖所有正例，排除所有反例。推理量较多。
无导师又称观察与发现学习（learning from observation and discovery），由环境提供的观察来学习，且这些观察是未经指导者分类的例子。需要更多推理。

5、类比学习（learning by analogy）
利用相似性认识新事物，基