1.1 引言
- 模式:指局部性结果(例如一条规则)
- 模型:指全局性结果(例如一颗决策树)
1.2 基本术语
- 数据集
- 样本、示例
- 属性、特征
- 属性值
- 属性空间、样本空间、输入空间:属性或样本的数量
- 特征向量:样本在属性空间中对应的点
- 泛化:学得的模型适用于新样本的功能称为泛化
- 归纳与演绎:归纳是特殊到一半的泛化,演绎是一般到特殊的泛化
- 归纳有广义和狭义之分,广义的归纳学习相当于从样例中学习,狭义的归纳学习相当于从数据中学习
- 概念学习中最基本的是不二概念学习,挤兑是或不是这样表示为0/1的值的目标概念学习
- 任何一个机器学习算法必有其偏好
1.3 假设空间
我们可以把所有假设的集合看做一个空间,被叫做假设空间,训练集中于假设空间相重合的集合叫做版本空间
1.4 归纳偏好
现实中存在一个新的样本在与之对应的模型中将输出不同的结果,因此机器学习算法必有其偏好。
归纳偏好可看作学习算法自身在一个很庞大的假设空间中对假设进行的选择的启发式或价值观。
奥卡姆剃刀是一种常用的基本原则,若有多个假设与观察一致,则选择最简单那个。
但很多情况下有时无法说明两个假设哪个更简单。
但事实上归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。