1.1引言
1.机器学习:研究计算机从数据中产生模型(model)的算法,即“学习算法”。
1.2基本术语
1.记录:可称为示例、样本,是对一个事件或对象(如:一个西瓜)的描述。
2.对象:如:西瓜
3.属性:可称为特征,对象在某方面的表现或特征(如:西瓜的色泽)。
4.属性值:属性上的取值(如:西瓜色泽为“青绿”中的青绿)
5.属性空间:也可称为样本空间、输入空间,属性的取值范围构成的空间。
6.数据集:若干记录的集合。
7.向量:一条记录中的d个属性构成一个d维向量。
8.训练中使用的数据称为“训练数据”,其中每个样本称为“训练样本”,样本组成的集合称为“训练集”。
9.学得模型:学习算法在给定数据和参数空间上的实例化。
10.标记:关于示例结果的信息(如:好瓜)。
11.标记空间:也可称输出空间,标记的集合。
12.若预测的是离散值,此类学习任务称为“分类”;若为连续值,学习任务称为“回归”。
13:二分类:只有正例和反例(如:好瓜、坏瓜)。
14.监督学习:训练数据有标记,分类和回归是其代表。
无监督学习:训练数据无标记,聚类是其代表。
15.聚类:将训练集中的西瓜分成若干组,每组称为一个“簇”,簇是自动形成的,这些簇可能对应一些潜在的概念划分。
16.好的学习模型:该模型具有很强的泛化能力,不仅在训练集在整个样本空间都能工作的很好。
1.3假设空间
1.归纳:从特殊到一般的“泛化”过程,与其对应的是归纳学习。
推理:从一般到特殊。
2.学习过程是一个在所有假设中进行搜索,找到与“训练集”匹配的假设。
3.假设空间:可能的函数构成的空间,确定学习范围。如:西瓜的假设空间为:4*4*4+1=65,其中1为极端情况即,不存在好瓜的概念。
4.版本空间:与训练集一致的“假设集合”,与训练集相对应。
1.4归纳偏好
1.归纳偏好:机器学习过程中对某种类型的假设具有偏好,即,在训练集上多种假设等效时,机器会选择哪个假设版本。
2.归纳偏好的基本原则:在多个假设等效时则选择最简单的那个,并且认为更平滑为更简单。
3.学习算法自身的归纳偏好与问题是否匹配,在大多数情况下会直接决定着算法能否取得好的性能。
4.好的性能:泛化能力更强。
5.NFL(no free lunch theorem):脱离具体问题,空谈哪种学习算法更好毫无意义。
1.5发展历程
1.机器学习研究分为:从样例中学习(广义的归纳学习),在问题求解和规划中学习,通过观察和发现学习。
2.从样例中学习分为:基于逻辑表示的符号主义学习,基于神经网络的连接主义学习。
样例中学习 | 符号主义学习 (能产生明确的概念) | 决策树 | 以信息论为基础,以信息熵的最小化为目标,模拟人类对概念进行判定的树形流程。 |
基于逻辑的学习 | 代表是归纳逻辑程序设计 | ||
连接主义学习(“黑箱”模型) | BP算法 | 基于神经网络 | |
统计学习 | 支持向量机(SVM) |
|
|
深度学习 |
|
| 需要调参,模型复杂,对计算机要求高 |
1.6应用现状
1.数据挖掘:数据库为数据挖掘提供数据管理技术,机器学习和统计学为数据挖掘提供数据分析技术。总之,数据库和机器学习是数据挖掘的两大支撑。