读书笔记--机器学习第二章

第2章 模型评估与选择

2.1经验误差与过拟合

1.错误率:分类错误的样本数占样本总数的比例。如:m个样本中有a个样本分类错误,则错误率E=a/m。

2.精度:精度=1-错误率

3.误差:训练误差:也可称经验误差,学习器在训练集上的误差。

        泛化误差:在新样本上的误差。

4.过拟合:学习器学习能力过于强大,把训练样本自身特有的一些特点当作了所有潜在样本都会有的一般性质,这样会导致泛化能力下降。

5.欠拟合:学习器都训练样本中的一般性质尚未学好,可以通过增加训练来克服。

2.2评估方法

1.用测试集上的“测试误差”作为泛化误差的近似,进而评价模型的性能。

2.测试样本是从样本真实分布中独立同分布采样而得。

2.2.1留出法

1.将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。

2.注意,训练/测试集的划分尽可能保持数据分布的一致性,例如在分类任务中至少保持样本的类别比例相似。

3.一般采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。

4.一般将样本中的2/3至4/5作为训练集,剩余样本作为测试集。

2.2.2交叉验证法

1.将数据集D划分为k个大小相似的互斥子集。

2.k折交叉验证法:每次取k个子集中的一个作为测试集,余下的作为训练集,这样可进行k次训练和测试,最终返回的是这k个测试结果的均值。

3.p次k折交叉验证:随机使用不同的划分重复p次,对每次划分采用上面提到的k折交叉验证,最终的评估结果是这p次的均值,例如常见的有10次10折交叉验证

4.留一法:交叉验证法的特例。假定数据集D中有m个样本,令k=m,这样每个子集中只有一个样本,这样就成了留一法。

2.2.3自助法

1.改进留出法和交叉验证法的缺陷。由于在前两种方法中保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计误差。

2.自助法:从数据集中做m次放回随机取样,得到的样本的集合作为训练集。剩余的未被采到的大约36.8%的样本作为测试集。

2.2.4调参与最终模型

1.为什么要调参?

  大多数学习算法都有些参数需要设定,参数配置不同,学得模型往往有很大差异。因此,在进行模型评估与选择时,不仅要对学习算法进行选择,还要对参数进行设定,这就是所说的“参数调节”或简称“调参”。

2.如何选择参数?

  对每个参数选定一个范围和步长,例如在[0,0.2]范围内以0.05为步长,那么选定的候选参数为5个(0.00,0.05,0.10,0.15,0.20),最终从5个候选值中产生选定值。

3.测试集:模型在实际使用中遇到的数据的集合称为测试集。用于判别估计模型在实际使用时的泛化能力。

4.验证集:模型评估与选择用于评估测试的数据集称为“验证集”。

2.3性能度量

1.性能度量:衡量模型泛化能力的评价标准,这就是性能度量。使用不同的性能度量往往会有不同的评测结果;这意味着模型的好坏是相对的,不仅取决于算法和数据,还决定于任务需求。

2.均方误差:

2.3.1错误率与精度

1.错误率:

2.精度:acc(f;D)==1-错误率

2.3.2查准率、查全率与F1

1.对于二分类问题,可将样例根据其真实分类与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative),样例总数=TP+FP+TN+FN

2.查准率:P(precision)=真正例/所有被认为是正例的例子(真正例+假正例)=TP/(TP+FT)

3.查全率:R(recall) =真正例/所有正例(真正例+假反例)=TP/(TP+FN)

4.查准率与查全率是一对矛盾的度量,查准率高时,查全率往往会偏低;而查全率高时,查准率往往会偏低。

5.P-R曲线:将学习器预测的结果进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在后面的是学习器认为“组不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测,每次计算出查全率、查准率。以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”。

6.若A完全包住B,则认为学习器A的性能优于学习器B。

7.“平衡点”:break-even point(BEP),P-R曲线中查准率=查全率的点。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值