机器学习西瓜书1-2
第1章 绪论
1. 1引言
本书利用西瓜的一系列特征(x)以及西瓜的标记(y这个结果也可能没有)通过不同的模型来学习得到一个专门判断西瓜好坏的模型。
通过对有标记的样本进行训练称为监督学习;
通过对没有标记的样本进行训练称为无监督学习;
介于两者之间的称为半监督学习。
1. 2基本术语
-
数据相关
西瓜的数据集一般用D表示,令 D= {(X1,y1),(X2,y2)…,(Xm,ym)} 其中每条X记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个示例 或样本。X的取值空间称为属性空间、样本空间在坐标空间中称为特征向量。
其中的一个示列Xi = (Xi1; Xi2; . . . ; Xid) d 称为样本的维数
其中有些有好瓜坏瓜的判断结果y称为标记,有标记的就称其为样例其中(X1,y1)称为一个样例y的集合称为标记空间或者输出空间。 -
分类、回归
预测西瓜好坏这种离散值就是分类,其中二分类问题中有正类,反类。涉及多个类别时,则称为多分类任务。预测西瓜成熟度这种连续值的学习任务称为回归。
学习、训练
从数据中学得模型的过程称为学习或训练, 这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为训练数据 ,其中每个样本称为一个训练样本, 训练样本组成的集合称为训练集. 学得模型对应了关于数据的某种潜在的规律,因此亦称假设; 这种潜在规律自身,则称为真相或真实,学习过程就是为了找出或逼近真相.有时将模型称为学习器 ,可看作学习算法在给定数据和参数空间上的实例化。
学得模型后,使用其进行预测的过程称为测试 ,被预测的样本称为测试样本. 例如在学得f后,对测试例 可得到其预测标记 y=f(x).
学得的模型适用于新样本的能力称为泛化能力。
聚类:分组每组成簇
1. 3假设空间
“从样例中学习”是从一部分数据(特殊)得到一个规律去对所有的数据作判断(一般),这是一个特殊到一般的过程,所以也称为“归纳学习”。
假设空间:假设的表示一旦确定,假设空间及其规模大小即确定。例如西瓜书里的这个假设空间即由“(色泽 = ?) ∩ (根蒂 = ?) ∩ (敲声 = ?)”的可能取值所形成的假设组成。若"色泽"、“根蒂”、"敲声"分别有3、2、2种可能取值,也有每个属性取什么值都行的情况,还有所有的属性取任何值都不行的情况,综合考虑得到该假设空间的大小 =(3+1)(2+1)(2+1)+1 = 37。
搜索:上述37种假设肯定不是每个都与我们的训练集匹配,所以我们需要搜索,搜索的过程也就是学习的过程。最后,可能由于学习算法不同,得到的匹配训练集的假设会有多个,这些符合条件的假设集合称为版本空间。
1. 4归纳偏好
与训练集一致的假设有多个,选哪个?机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。
一个一般性原则引导算法选择出“正确的”偏好:奥卡姆剃刀,即选最简单的那个。
学习算法自身的归纳偏好与问题是否匹配,起到决定性作用。
第2章 模型评估与选择
当多种学习算法可供选择,或者对同一种学习算法,使用不同的参数配置时也会产生不同的模型。该怎么选择算法的优劣?这就需要模型评估了。
由于无法得到泛化误差,训练误差又存在过拟合现象。所以使用测试误差来近似泛化误差进行评估模型。
2.1经验误差与过拟合
训练集上,实际输出与预测输出之间的差异称为经验误差(训练误差),
学习器在新样本上的误差称为泛化误差。
把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。考虑的特征太多就会过拟合。
相对的如果对训练样本的一般性质尚未学好。考虑的特征太少就会欠拟合。
2.2评估方法
使用测试误差近似泛化误差,测试集要尽量与训练集互斥。当下我们只有一个数据集D,如何划分出 训练集 和 测试集 呢?有以下三种方法:
2.2.1留出法
D = S U T,训练集S和测试集T互斥。.在 S上训
练出模型后,用T来评估其测试误差,作为对泛化误差的估计.
一般要采用若干次随机划分、重复进行实验评估后取平均值作
为留出法的评估结果.采取分层采样。
2.2.2交叉验证法
D=D1 U D2 U …U Dk,Di ∩ Dj = ø,每个数据子集尽可能保持数据同分布。每次使用k-1个子集作为训练集,剩余一个作为测试集,这样能得到 k 组S、T,所以可以进行 k 次训练和测试,最后取 k 个测试结果的均值;又因为划分的方式有多种,所以我们同留出法一样,多次随机划分产生多个测试均值,再取平均得到评估值,常见的有 10次10折交叉验证法、留一法。
2.2.3自助法
随机采样拥有m个样本数据集D中的样本组成D’,D’与D的个数相同时停止采样,重复m次,得到m个D’。D’ 中大约包含2/3的D的样本作为训练集,D’ 不包含的大约1/3的D中的样本作为测试集。这种随机采样改变了初始数据集的数据分布,会引入估计偏差。
总结:在数据集较小,难划分时自助法很有用;数据量足够时使用前两种方法。
2.3性能度量
定义:衡量模型泛化能力的评价标准。
在预测任务中?给定样例集 = {(X1 , Y1) , (X2 的), . . . , (Xm, Ym)} 其中饥
是示例 Xi 的真实标记.要评估学习器 的性能,就要把学习器预测结果 f(x)
与真实标记y进行比较.
回归任务最常用的性能度量是均方误差
对于数据分布和概率密度函数均方误差可描述为
对于样例集;数据分布和概率密度函数
错误率与精度的不同描述
错误率:
精度:
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划
分为真正例(true positive) 、假正例 (false positive) 、真反例(true negative)
假反例 (false negative) 四种情形,令 TP 、FP、 TN、 FN 分别表示其对应的样例数,则显然有 TP+FP+TN+FN=样例总数.
查准率 与查全率 分别定义为
以查准率为纵轴、查全率为横轴作图 ,就得到
了查准率 查全率曲线,简称 P-R曲线
性能度量:F1=2PR/(P+R)与BEP(P=R时的点)