《机器学习》周志华 学习笔记 Chapter 2 模型评估与选择

时间:

10/13  P23~P36

10/14  结束CH2(跳过了比较检验)

 

1、经验误差和过拟合

(1)错误率(error rate):分类错误的样本占总样本数的比例

(2)训练误差(经验误差):学习器在训练集上的误差

(3)泛化误差:在新样本上的误差

(4)测试误差:学习器在测试集上的误差,经常作为泛化误差的近似

(5)过拟合(overfitting):在训练时,将训练样本的一些自身特点当成了所有潜在样本都有的一般性质

 

2、训练集和测试集的划分

(1)留出法(hold-out):直接将总数据集合划分为两个互斥的集合(进行若干次随机划分、重复进行实验后取平均值)

(2)k折交叉验证法(k-fold cross validation):将数据集D通过分层采样划分为k个大小相似的互斥子集,每次采用k-1个子集的并集作为训练集,剩下的作为测试集;进行K次训练和测试,返回这k次测试结果的均值。

 a.k常取10

b.通常还要使用不同的子集划分方式重复p次,最常见10次10折交叉验证

c.k=1时为留一法(Leave-One-Out):不受子集划分方式影响,但开销过大

(3)自助法(bootstrapping) 每次进行自助采样(放回采样),在数据量小,难以有效划分训练测试集时使用

 

3、调参与最终模型

(1)学习算法很多参数选择都是在实数范围内,因此需要进行步长设置,实验在一定范围内的候选值     

(2) 验证集(validation set) :模型评估与选择中用于评估测试的数据集

(3)测试数据:学得模型在实际使用中遇到的数据,用于判断模型的泛化能力    

 

4、性能度量

回归任务度量:

(1)均方误差(mean squared error):   

分类任务度量:

(1)错误率:分类错误的样本数占样本总数的比例

(2)精度:分类正确的样本数占样本总数的比例

(3)查准率、查全率、F1

混淆矩阵:

a.查准率(precision):预测为正且实为正 / 所有被预测为正

b.查全率(recall):预测为正且实为正 / 所有实为正

c.P-R图(P31):比较平衡点BEP(查准率=查全率 时的取值),即与y=x的交点,交点值越大,则该学习器性能越好

d.F1度量:查准率和查全率的调和平均

      (不使用算数平均,防止结果虚高,调和平均有某种“惩罚机制”) 

      F-beta:P32

(4)ROC和AUC

a.ROC:

   横轴:真正例率: TP /(TP + FN)

   纵轴:假正例率: FP/(TN + FP)

b.AUC: ROC曲线下的面积

(5)代价敏感错误率与代价曲线

不同分类错误有非均等代价(unequal cost)

 

5、偏差与方差

(1)偏差(bias):期望输出与真实标记的差别;刻画了算法本身的学习能力

(2)方差:度量了同样大小的训练集的变动导致的学习性能的变化,即数据扰动造成的影响

(3)噪声:数据集中标记与真实标记的差异;表达了当前任务上任何算法达到的期望泛化误差的下届,即问题本身的难度

 

对回归任务,采用简单的化简工作(P45),可得到:

               泛化误差 = 偏差 + 方差 + 噪声

 

“偏差-方差窘境”:

         对学习算法的不同训练程度:

                     当训练不足时,拟合能力不够,偏差主导了泛化错误率,训练数据的扰动影响不大

                     当训练充足后,拟合能力足够强,方差将主导泛化错误率,训练数据扰动影响较大

                     学习器学习了训练数据本身的非全局特性,则将发生过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值