模型评估与模型选择_不属于通过实验测试来对模型的泛化误差进行评估的评估方法是-CSDN博客

评价一个机器学习模型的好坏需要特定的评估方法，并据此对模型进行选择，从而得到一个更好的模型。本文主要是关于模型评估与模型选择的笔记，以及利用 scikit-learn 对 Logistic回归进行的结果进行交叉检验。

1.训练误差，测试误差与泛化误差

学习器（模型）在训练集上表现出来的误差称为训练误差（training error）或经验误差（empirical error），这种误差可以通过损失函数进行描述：

Etraining(f)=1N∑Ni=1L(yi,f(xi)) E t r a i n i n g ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) $Etraining(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$
其中

L(⋅) L ( ⋅ ) $L(\cdot)$ 为损失函数，

f f $f$ 为模型，

N

$N$ 为训练样本容量。很多机器学习算法的训练过程就是试图最小化这一训练误差。但是最小化训练误差并不一定就是一个好的模型，它有可能只是将训练样本中所有的特征都非常好地挖掘出来进行学习，但这些训练样本的某些特征有可能是具有特异性的，并不能推广到所有样本中，这就会导致模型的 过拟合（overfitting）。模型在新数据集合上表现出来的误差，称为 泛化误差（generalization error）。通常会通过实验测试来对模型的泛化误差进行评估，这时需要引入一些新的测试数据对模型进行检验，在测试数据上表现出来的误差称为 测试误差（testing error）。测试误差为：

etest=1N'∑N'i=1I(yi≠f(xi)) e t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ( x i ) ) $etest=\frac{1}{N′}\sum_{i=1}^{N′}I(y_i≠f(x_i))$
其中

I(⋅) I ( ⋅ ) $I(\cdot)$ 为指标函数（indicator function），当

⋅ ⋅ $\cdot$ 为真是返回

1 1 $1$ ，否则返回

0

$0$ ；

N′ N ′ $N'$ 为测试样本容量，测试准确率（或称为精度（accuracy））：

acctest=1−etest a c c t e s t = 1 − e t e s t $acc_{test}=1−e_{test}$

2.过拟合与欠拟合

训练误差很小而泛化误差很大时称为过拟合，与之相对的是欠拟合（underfitting）。例如多项式拟合：

fM(x,ω)=ω0+ω1x+ω2x2+⋯+ωMxM=∑Mj=0ωjxj f M ( x , ω ) = ω 0 + ω 1 x + ω 2 x 2 + ⋯ + ω M x M = ∑ j = 0 M ω j x j $f_M(x,ω)=ω_0+ω_1x+ω_2x_2+⋯+ω_Mx_M=\sum_{j=0}^Mω_jx_j$
当选取

M M $M$ 个参数进行训练时，可能出现下列情况：

当 $M = 0$ 和 $M = 1$ 时，模型为直线，拟合效果很差，即欠拟合；当 $M = 9$ 时，模型曲线经过了每一个训练数据点，训练误差为 0，但是无法预测新的数据，因此泛化误差很大，即过拟合。

3. 测试误差的评估方法

留出法（hold-out）
交叉验证法（cross validation）
自助法（bootstrapping）
调参（parameter tuning）

3.1 留出法

将数据集 $D$ 划分为 $S, T$ ：

$D=S\cap T,S \cup T=\emptyset$
并采用分层采样（stratified sampling），通常选用 $2/3 - 4/5$ 用于训练。

3.2 交叉验证法

将 $D$ 划分为 $k$ 个大小相似的互斥子集：

D=D1∪D2∪⋯∪Dk,Di∩Dj=∅(i≠j) D = D 1 ∪ D 2 ∪ ⋯ ∪ D k , D i ∩ D j = ∅ ( i ≠ j ) $D=D1∪D2∪⋯∪D_k,D_i∩D_j=∅(i≠j)$
每次用

k−1 k − 1 $k-1$ 个子集作为训练集，剩下一个作为测试集，称为 k折交叉验证（k-fold cross validation）。

k k $k$ 通常取 10，并随机使用不同划分重复

p

$p$ 次，最终取

p p $p$ 次结果均值，例如“10次10折交叉验证”。

假设数据集 $D$ 容量为 $m$ ，若 $k = m$ ，则称为 留一法（Leave-One-Out, LOO）。留一法苹果结果比较准确，但计算开销也相应较大。

3.3 自助法

以自助采样法（bootstrap sampling）为基础，从 $D$ 中有放回地随机抽取 $m$ 次，得到同样包含 $m$ 个样本的 $D'$ ， $D$ 中有一部分样本会在 $D'$ 中出现多次，而另一部分则未出现， $m$ 次重采样始终未被采到的概率是：

$\lim_{x \to \infty}(1-\frac{1}{m})^m\to\frac{1}{e}\approx 0.368$
即 $36.8\%$ 的样本未出现在 $D'$ 。以 $D'$ 作为训练集， $D - D'$ 作为测试集。自助法在数据集较小、难以划分训练/测试集时很有用。

4. 性能度量

除了精度（ $acc_{test}$ ）和错误率（ $e_{test}$ ），还需要反映任务需求的性能度量指标。

查准率、查全率与 $F_1$
ROC & AUC
代价矩阵

4.1 查准率、查全率与 $F_1$

TP+FP+TN+FN=m++m−=m T P + F P + T N + F N = m + + m − = m $TP+FP+TN+FN=m^++m^−=m$
查准率（准确率，precision）：

P=TPTP+FP P = T P T P + F P $P=\frac{TP}{TP+FP}$
查全率（召回率，recall）：

R=TPTP+FN R = T P T P + F N $R=\frac{TP}{TP+FN}$
希望查全率高，意味着更看重决策的准确性，例如在商品推荐系统，尽量减少错误推荐；希望查全率高，意味着“宁可错杀一千”，例如在罪犯检测过程中。

F1=2PRP+R F 1 = 2 P R P + R $F1=\frac{2PR}{P+R}$

Fβ=(1+β2)PR(β2+P)+R F β = ( 1 + β 2 ) P R ( β 2 + P ) + R $F_β=\frac{(1+β^2)PR}{(β^2+P)+R}$
当

β=1 β = 1 $\beta = 1$ 时，

Fβ=F1 F β = F 1 $F_\beta = F_1$ ；

β>1 β > 1 $\beta \gt 1$ 时，查全率影响更大；

β<1 β < 1 $\beta \lt 1$ 时，查准率影响更大。

4.2 信号检测论

TPR=TPTP+FN T P R = T P T P + F N $TPR=\frac{TP}{TP+FN}$

FPR=FPFP+TN F P R = F P F P + T N $FPR=\frac{FP}{FP+TN}$
在实验心理学信号检测论中，TPR 是 击中（Hit）的概率，FPR 是 虚惊（False alarm）的概率。ROC（Receiver Operating Characteristic Curve）称为接受者操作特性曲线（又称感受性曲线）。曲线上各点反应相同的感受性，只是在不同的判定标准下所得的结果。以虚惊概率（FPR）为横轴，击中概率（TPR）为纵轴组成的坐标图和被试（学习模型）在相同刺激条件下采用不同判断标准得出不同结果画出的曲线。

曲线下区域的面积（Area Under ROC Curve, AUC）代表不同被试（模型）对刺激的辨别能力，AUC 越大，意味着辨别能力越强。

AUC=12∑m−1i=1(xi+1−xi)(yi+yi+1) A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ( y i + y i + 1 ) $AUC=\frac{1}{2}\sum_{i=1}^{m−1}(x_{i+1}−x_i)(y_i+y_{i+1})$