第一章绪论
1.1 引言
西瓜书中用“模型”泛指从数据中学得的结果。
1.2 基本术语
- 数据集
- 属性or特征
- 属性值
- 属性张成的空间称为“属性空间”、“样本空间”或“输入空间”
- 从数据中学得模型的过程称为“学习”(learning)或“训练”(training),此过程通过执行某个学习算法来完成。
- 训练过程中使用的数据成为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)
- 若预测的是离散值,此类学习任务称为“分类”,只涉及两个类别时,称为“二分类”任务;涉及多个类别时,称为“多分类”任务
- 若预测的是连续值,此类学习任务称为“回归”
- 使用学得的模型进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”
- “聚类”,将训练集中的样本分成若干组,每组称为一个“簇”
- 根据训练数据是否有标签,可以将学习任务分为“监督学习”(如:分类和回归)和“无监督学习”(如:聚类)
- 学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好地适用于整个样本空间。
1.3 假设空间
- 归纳,是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律
演绎,是从一般到特殊的“特化”过程,即从基础原理推演出具体状况
1.4 归纳偏好
- 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称为“偏好”