1. 基本术语
1. 基本概念
- 分类: 预测的值是离散值
- 回归: 预测的值是连续值
- 数据集:所有记录的集合
- 样本或实例:每一条记录
- 特征或属性:单个的特点,一条记录构成一个特征向量
- 维数:一个样本的特征数
- 泛化能力: 学得模型适用于新样本的能力
2. 机器学习的学习任务分类
根据训练数据是否拥有标记信息可分:
- 监督学习:分类和回归为代表
- 无监督学习:聚类为代表
3. 机器学习目标
使学得的模型更好的适用于新样本,不是仅仅在训练样本上工作的好
2. 假设空间
- 归纳学习有狭义和广义之分,广义学习的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此也称为概念学习。
1. 学习过程
我们把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
- 在搜索过程中可以不断的删除与正例不一致的假设和与反例相同的假设,最终获得与训练集一致的假设。
- 可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称为版本空间。
3、 归纳偏好
1. 概念
机器学习算法在过程中对某种类型假设的偏好,称为“归纳偏好”。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而产生无法确定的学习结果。
2. 奥卡姆剃刀
归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式。那么有没有一般性的原则来引导算法确立“正确”的偏好呢。
- 奥卡姆剃刀是一种常用的自然科学研究中最基本的原则,即若有多个假设与观察一致,则选择最简单的那个。
3、 NLP定理
NLP定理: 一个算法若在某些问题上比另一个算法好,则必然存在另一些问题使得这个算法没有另一个算法好。