1.2 基本术语
数据集,样本,特征,属性值。
一袋西瓜,一个西瓜,颜色或大小,青绿。
样本空间与特征向量
将n个特征构建一个n维空间(该空间称为样本空间),每个样本都对应其中一个点,每个点都对应一个坐标向量,称为特征向量。
训练集,模型,标记,样例
训练使用的数据(一袋西瓜),模型(判断是否为好瓜的整个过程),示例结果的信息(好瓜或坏瓜),拥有标记信息的示例(打上标记的瓜)
分类(classification)与回归(regression)
分类预测为离散值,回归为连续值
测试与测试样本
对模型进行测试的集合
聚类
将训练集分成若干个组,每组称为一个簇
监督学习和无监督学习
回归与分类是前者的代表,聚类则是后者的代表
泛化能力与过拟合
训练样本只是样本空间的采样,我们希望训练出来的模型能够很好的表达整个样本空间而不仅仅是训练样本(过拟合的产生),衡量尺度便是模型的泛化能力。
一般而言,训练样本越多(随机采样),训练出来的模型泛化能力越强
1.3 假设空间
归纳学习
从样例中学习是一个归纳的过程,称之为归纳学习
假设空间
若假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。
如果属性色泽、根蒂、敲声分别有3 、2 、2种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示),则假设空间大小为 (3 + 1)×(2 + 1)×(2 + 1)+ 1 = 37 。
学习过程就是,从假设空间不断删除与正例不一致或者与反例一致的假设,最终得到对所有训练样本能进行正确判断的假设
版本空间
因为训练样本数量有限,假设空间含有很多假设,最终筛选后有可能剩下多个假设是符合训练样本的,这些剩下的假设组成的集合就称为版本空间。
1.4 归纳偏好
归纳偏好
算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀
若有多个假设与观察一致,则选择最简单的那个
若模型为函数,可理解为最平滑,最简单的函数
没有免费的午餐(NFL定理)