1.1 引言
机器学习(machine learning)是什么?
定义:机器学习是致力于研究如何通过计算的手段,利用经验(数据)来改善系统自身的性能的学科。
研究的主要内容:是从数据中产生“模型”的算法,即”学习算法“(learn algorithm)。
目标:使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好。
1.2 基本术语
示例/样本 sample:数据集中的每条记录是关于一个事件或对象的描述。
特征向量 feature vector: 由于空间中的每个点对应一个坐标向量,一个示例用向量表示。
属性/特征 feature:反映事件或对象在某方面的表现或性质的事项。
属性空间/样本空间/输入空间 attribute/sample space:属性张成的空间。
维数 dimensionality:样本的属性个数。
学习/训练 training:从数据中学得模型的过程。
假设 hypothesis: 模型对应了数据的某种潜在的规律。
标记 label:示例结果的信息。
样例 example:拥有了标记信息的示例。
根据预测结果的类型,可以将机器学习任务分为两类:
- 分类 classification:预测结果的类型是离散值。包含二分类(binary classification)和多分类(multi-class classification)。
- 回归 regression:预测结果的类型是连续值。
根据训练数据是否拥有标记信息,学习任务也可大致划分为两大类:
- 监督学习 supervised learning:训练数据有标记信息,包括分类和回归等。
- 无监督学习 unsupervised learning:训练数据没有标记信息,代表有聚类。
泛化 generalization: 适用于新样本的能力。具有强泛化能力的模型能很好地适用于整个样本空间。
1.3 假设空间
归纳 induction:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律。
演绎 deduction:从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。
归纳学习 inductive learning:从样例中学习。
我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设。
版本空间 version space:可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”。
1.4 归纳偏好
归纳偏好/偏好 inductive bias:机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,无法产生确定的学习结果。
有没有一般性的原则来引导算法确立“正确”的偏好?
奥卡姆剃刀 Occam’s razor:自然科学研究中的最基本原则。若有多个假设与观察一致,则选最简单的那个。原话为:
Do not multiply entities beyond necessity.
如无必要,勿增实体。
参考资料
- 机器学习,周志华,清华大学出版社