1.1引言
- 模型:指从数据中学得的结果
- 模式:指局部性结果
1.2基本术语
- 数据集(data set):一组记录的集合(如西瓜的描述集合)
- 示例(instance)或样本(sample):数据集中的一条记录,是关于一个事件或对象的描述。(如每个示例代表对一个西瓜的描述)
- 属性(attribute)或特征(feature):反映对象某方面的表现或性质的事项。(如西瓜的属性描述为:根蒂、敲声、色泽)
- 属性值(attribute value):属性的具体取值。(例如色泽的取值可以为:青绿、乌黑)
- 属性空间(attribute space)、样本空间(sample space)或输入空间:属性张成的空间。(根蒂、敲声、色泽张成一个关于西瓜的三维空间)
- 特征向量(feature vector):属性空间中的每一个,向量点代表一个具体的对象。这个向量点就是特征向量
- 训练数据(training data):从数据中学得模型的过程中使用的数据。这样每一个样本叫训练样本(training sample) 或训练示例(training instance)
- 标记(label):我们建立的预测。(是不是“好瓜”)
- 分类(classification):预测的是离散值。(如好瓜、坏瓜)对涉及两个类别的“二分类(binary classificaton)”任务,通常称一个叫“正类”(positive class)另一个叫反类(negative class);涉及多分类任务时称为多分类(multi-class classification)
- 回归(regression):预测的是连续值。(西瓜成熟度:0.95、0.37)
- 聚类(clustering):对数据集进行分组,分组结果预先不知,学习过程中使用的训练样本通常不拥有标记信息
- 监督学习(supervised learning):有标记信息的学习任务,代表是分类和回归。
- 非监督学习(unsupervised learning):没有标记信息的学习任务,代表是聚类。
- 泛化(generalization)能力:学得的模型适用新样本的能力
1.3假设空间
- 归纳(induction) :从特殊推到一般的泛化,从样例中学习就是归纳过程,归纳学习(inductive learning)
- 演绎(deduction):从一般到特殊
- 版本空间:现实问题中我们常面临很大的假设空间,可学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”
- 上边的假设(1)(2)(3)即在西瓜数据集上“泛化”出的假设空间。
学习过程可以看作是在所有的假设组成的空间中搜索的过程;
学习的目标是找到与训练数据”匹配“的一组假设。
1.4 归纳偏好
从一组数据中我们能学习出很多不同的模型。哪种模型更好这取决于我们如何给出”偏好“。
- 奥卡姆剃刀准则:即有多个假设与观察一致,则选择最简单的那个。
- 多释原则,主要保留与经验观察一致的所有假设。(与集成学习的思想非常吻合)。
- NFL定理(no free lunch theorem),证明误差与学习算法无关。但NFL定理建立在一个假设上:f(真实目标的函数)是均匀分布的(所有问题出现的机会相同或所有问题同等重要)。实际上,f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。