第1章.绪论
1.1引言-综述
机器学习
- 致力于研究如何通过计算的手段,利用经验来改善系统自身的性能
- 主要内容是关于计算机上从数据中产生“模型”的算法,即“学习算法”
- 注:本书用“模型”泛指从数据中学得的结果
1.2基本术语
数据集
“示例”或“样本”:每条记录
“样例”:拥有标记信息(示例的结果信息)的示例称为样例。
“属性”或“特征”:反映事件或对象在某方面的表现或性质的事项
“属性值”:属性的取值
“属性空间”或“样本空间”:属性张成的空间,规模。如20个属性,每个属性10个可能取值,则样本空间的规模已达10的20次方
“特征向量”:空间中每个点对应一个坐标向量,因此我们把一个示例称为一个“特征向量”。
“学习”或“训练”:从数据中学得模型的过程
“训练数据”:训练过程中使用的数据。每个样本为“训练样本”,训练样本组成的集合称为“训练集”
“假设”:学得模型对应了关于数据的某种潜在的规律,亦称“假设”
“学习器”:看做学习算法在给定数据和参数空间上的实例化
根据训练数据是否拥有标记信息,学习任务大致划分为“监督学习”和“无监督学习”。分类和回归为前者,聚类为后者
“分类”:欲预测的是离散值。 “二分类”、“多分类”
“回归”:欲预测的是连续值
“测试”:学得模型后,使用其进行预测的过程。
“聚类”:学习过程中使用的训练样本通常不拥有标记信息。
“泛化”能力:学得模型适用于新样本的能力。
假设样本空间中全体样本服从一个未知“分布”,每个样本都是独立地从这个分布上采样获得的,即“独立同分布”,故一般而言,训练样本越多,我们得到的关于该分布的信息越多,这样就越可能通过学习获得具有强泛化能力的模型。
1.3假设空间
- 归纳。从特殊到一般的“泛化”过程,即从具体事实归结出一般性规律。
- 演绎。从一般到特殊的“特化”,即从基础原理推演出具体状况。
- “假设集合”或“版本空间”:因为可能有多个假设与训练集一致,则构成了“假设集合”(“版本空间”)。
1.4归纳偏好
“归纳偏好”:机器学习算法在学习过程中对某种类型假设的偏好。
归纳偏好可看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“奥卡姆剃刀”,一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的问题中,该假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
“没有免费的午餐”定理(NFL定理):
在所有“问题”出现的机会相同或所有问题同等重要时,对于一个学习算法a,若它在某些问题上比学习算法b好,则必然存在另一些问题,在呢里b比a好。
注意:这并不代表所有学习算法的期望性能跟随机胡猜差不多。我们需要知道,大多数情况下实际情形并不满足定理的重要前提,很多时候我们只关注自己正在试图解决的问题。
!!!
NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.。
1.5发展历程
人为干预越少越好加粗样式
1.6应用现状
1.7阅读材料