西瓜书第一章笔记：绪论_西瓜书第一章绪论是不是有错-CSDN博客

本文链接：https://blog.csdn.net/weixin_43110959/article/details/90178434

1.1引言

模型：指从数据中学得的结果
模式：指局部性结果

1.2基本术语

数据集（data set）：一组记录的集合（如西瓜的描述集合）
示例（instance）或样本（sample）：数据集中的一条记录，是关于一个事件或对象的描述。（如每个示例代表对一个西瓜的描述）
属性（attribute）或特征（feature）：反映对象某方面的表现或性质的事项。（如西瓜的属性描述为：根蒂、敲声、色泽）
属性值（attribute value）：属性的具体取值。（例如色泽的取值可以为：青绿、乌黑）
属性空间（attribute space）、样本空间（sample space）或输入空间：属性张成的空间。（根蒂、敲声、色泽张成一个关于西瓜的三维空间）
特征向量（feature vector）：属性空间中的每一个，向量点代表一个具体的对象。这个向量点就是特征向量
训练数据（training data):从数据中学得模型的过程中使用的数据。这样每一个样本叫训练样本（training sample) 或训练示例（training instance)
标记（label）：我们建立的预测。（是不是“好瓜”）
分类（classification）：预测的是离散值。（如好瓜、坏瓜）对涉及两个类别的“二分类（binary classificaton）”任务,通常称一个叫“正类”（positive class）另一个叫反类（negative class）；涉及多分类任务时称为多分类（multi-class classification)
回归（regression）：预测的是连续值。（西瓜成熟度：0.95、0.37）
聚类（clustering）：对数据集进行分组，分组结果预先不知,学习过程中使用的训练样本通常不拥有标记信息
监督学习（supervised learning）：有标记信息的学习任务，代表是分类和回归。
非监督学习（unsupervised learning）：没有标记信息的学习任务，代表是聚类。
泛化（generalization)能力：学得的模型适用新样本的能力

1.3假设空间

归纳（induction） :从特殊推到一般的泛化，从样例中学习就是归纳过程，归纳学习（inductive learning）
演绎（deduction）：从一般到特殊
版本空间：现实问题中我们常面临很大的假设空间，可学习过程是基于有限样本训练集进行的，因此可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”
上边的假设（1）（2）（3）即在西瓜数据集上“泛化”出的假设空间。

学习过程可以看作是在所有的假设组成的空间中搜索的过程；
学习的目标是找到与训练数据”匹配“的一组假设。

1.4 归纳偏好

从一组数据中我们能学习出很多不同的模型。哪种模型更好这取决于我们如何给出”偏好“。

奥卡姆剃刀准则:即有多个假设与观察一致，则选择最简单的那个。
多释原则，主要保留与经验观察一致的所有假设。（与集成学习的思想非常吻合）。
NFL定理（no free lunch theorem),证明误差与学习算法无关。但NFL定理建立在一个假设上：f（真实目标的函数）是均匀分布的(所有问题出现的机会相同或所有问题同等重要）。实际上，f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。