第 2 章 模型评估与选择

0 总结

0.1 术语总结

符号/名词说明
错误率(error rate) m m m 个样本中有 a a a 个样本分类错误,错误率 E = a / m E = a/m E=a/m
精度(accuracy)1 - 错误率,1 - a / m a/m a/m
误差(error)学习器实际预测输出与样本的真实输出之间的差异
训练误差(training error)、经验误差(empirical error)在训练集上的误差
泛化误差(generalization error)在新样本上产生的误差
过拟合、过配(overfitting)学习器把训练样本学得“太好”,把训练样本本身的一些特点当作所有潜在样本都具有的一般性质
欠拟合(underfitting)对训练样本的一般性质尚未学好
测试集(testing set)
测试误差(testing error)作为泛化误差的近似
留出法(hold-out)
交叉验证法(cross validation)
k折交叉验证(k-fold cross validation)
留一法(Leave-One-Out,LOO)k折交叉验证中的 ,k 等于样本数量 m
自助法(bootstrapping)
自助采样法(bootstrap sampling)、可重复采样、有放回采样、包外估计(out-of-bag estimate)
参数(parameter)
参数调节、调参(parameter tuning)对算法参数进行设定
验证集(validation set)模型评估与选择中用于评估测试的数据集
性能度量(performance measure)衡量模型泛化能力的评价标准
均方误差(mean squared error) E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m} \sum_{i=1}^m(f(x_i) - y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2
查准率(precision)、准确率 P = T P T P + F P P = \frac{TP}{TP + FP} P=TP+FPTP, 挑出的西瓜中有多少比例是好瓜
查全率(recall)、召回率 R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP,所有好瓜中有多少比例被挑了出来
真正例(true positive,TP)
假正例(false positive,FP)
真反例(true negative,TN)
假反例(false negative,FN)
混淆矩阵(confusion matrix)
P-R 图以查准率为纵轴、查全率为横轴作图
平衡点 (Break-Event Point,BEP)一个度量,它是“查准率=查全率”时的取值
宏查准率 (macro- P P P)
宏查全率 (macro- R R R)
F 1 F1 F1
微查准率 (micro- P P P)
微查全率 (micro- R R R)
F 1 F1 F1
受试者工作特征(Receiver Operating Characteristic)
真正例率(True Positive Rate, TPR)所有正例中,正确判断为正的占比
假正例率(False Positive Rate,FPR)所有反例中,错误判断为正的占比
截断点(cut point)将样本分为正例与反例的一个阈值
AUC(Area Under ROC Curve)
非均等代价(unequal cost)
代价矩阵(cost matrix)
FNR,假反例率FNR = 1 - TPR
代价曲线(cost curve)?
统计假设检验(hypothesis test)
二项检验(binomial test)
置信度(confidence)
双边(two-tailed)
偏差-方差分解 (bias-variance decomposition)解释学习算法泛化性能的一种工具
偏差(bias)期望输出与真实标记的差,度量学习算法的期望预测与真实结果的偏离程度
方差度量了同样大小的训练集的变动所导致的学习性能的变化
噪声表达了在当前任务上任何学习算法能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
偏差-方差窘境(bias-variance dilemma)学习器拟合能力不够强,偏差大,拟合能力太强,方差大
  • 测试集上的判断效果来估计模型在实际使用时的泛化能力,训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参

分类

符号/名词说明
错误率 E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D) = \frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(x_i) \neq y_i) E(f;D)=m1i=1mI(f(xi)=yi)
精度 a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D ) acc(f;D) = \frac{1}{m}\sum_{i=1}^m \mathbb{I}(f(x_i) = y_i) = 1 - E(f;D) acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f;D)

0.2 符号总结

符号/名词说明
S S S训练集
T T T测试集
D D D数据集
f f f学习器
I ( ⋅ ) \mathbb{I}(·) I()指数函数,若 · 为真则取值 1, 否则取值 0
ϵ \epsilon ϵ错误率
ϵ ^ \hat{\epsilon} ϵ^测试错误率
s.t.subject to 的简写
y D y_D yD x x x 在数据集中的标记
y y y x x x 的真实标记,有时候 y D ≠ y y_D ≠ y yD=y,因为可能有噪声
E . D [ f ( ⋅ ) ] \Bbb{E}_{. \mathcal{D}}[f(·)] E.D[f()]函数 f ( ⋅ ) f(·) f()·在分布 D \mathcal{D} D 的数学期望;意义明确时将省略 D \mathcal{D} D 和或 ·
f ( x ; D ) f(x;D) f(x;D)训练集 D D D 上学得模型 f f f x x x 上的预测输出
f ˉ ( x ) = E D [ f ( x ; D ) ] \bar{f}(x) = \Bbb{E}_D[f(x;D)] fˉ(x)=ED[f(x;D)]学习算法的期望预测
v a r ( x ) = E D [ f ( x ; D − f ˉ ( x ) ) 2 ] var(x) = \Bbb{E}_D[f(x;D - \bar{f}(x))^2] var(x)=ED[f(x;Dfˉ(x))2]样本数相同的不同训练集产生的方差
ε 2 = E D [ ( y D − y ) 2 ] \varepsilon^2 = \Bbb{E}_D[(y_D - y)^2] ε2=ED[(yDy)2]噪声
b i a s 2 ( x ) = ( f ˉ ( x ) − y ) 2 bias^2(x) = (\bar{f}(x) - y)^2 bias2(x)=(fˉ(x)y)2偏差
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D) = bias^2(x) + var(x) + \varepsilon^2 E(f;D)=bias2(x)+var(x)+ε2泛化误差可分解为偏差、方差和噪声之和

0.3 知识总结

1. 经验误差与过拟合

在这里插入图片描述
在这里插入图片描述

2. 评估方法

在这里插入图片描述
在这里插入图片描述

2.1 留出法

在这里插入图片描述
在这里插入图片描述

2.2 交叉验证法

在这里插入图片描述
在这里插入图片描述

2.3 自助法

在这里插入图片描述
在这里插入图片描述

2.4 调参与最终模型

在这里插入图片描述

3. 性能度量

在这里插入图片描述
在这里插入图片描述

3.1 错误率与精度

在这里插入图片描述
在这里插入图片描述

3.2 查准率、查全率 与 F 1 F_1 F1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 ROC 与 AUC

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

公式(2.20)推导

在这里插入图片描述
在这里插入图片描述

公式(2.21)推导

在这里插入图片描述

3.4 代价敏感错误率与代价曲线

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 比较检验

在这里插入图片描述

4.1 假设检验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 交叉验证 t t t 检验

在这里插入图片描述
在这里插入图片描述

4.3 McNemar 检验

在这里插入图片描述

4.4 Friedman 检验与 Nemenyi 后续检验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 方差与偏差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

公式(2.41)

在这里插入图片描述
在这里插入图片描述

6. 阅读材料

在这里插入图片描述
在这里插入图片描述

习题

在这里插入图片描述

参考文献

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值