（《机器学习》完整版系列）第2章模型评估与选择 ——2.7 （实战）具体的性能检验方法

人工干智能

已于 2023-03-31 10:18:31 修改

阅读量163

点赞数 1

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习算法人工智能概率论

于 2023-02-18 10:46:27 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129097424

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 34 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

*有了前一节的性能检验的理论，我们就可以讨论一些具体的性能检验方法，包括：

二项检验
$t$ 检验
似然比检验*

具体的性能检验方法

二项检验*

本小节更正了【西瓜书】相关内容，请仔细看。
以前述的两种检验方法（临界值法、p值法）为检验的“框架”，应用这个“框架”我们讨论二项检验 $H_0:\epsilon = \epsilon _0$ 。

以错误率 $\epsilon$ 作为性能度量。设学习器的错误率（学习器的泛化性能仅与学习器相关，即它是关于样本变量的常数）为 $\epsilon$ ，则正确率为 $1-\epsilon$ ，
由伯努利试验知，学习器对 $m$ 个样本的预测中有 $i$ 个出错的概率为
$\begin{align} P(i;{\epsilon})={m \choose i}\epsilon ^{ i}(1-\epsilon )^{m-i}\qquad i=0,1,2,\cdots,m \tag{2} \end{align}$
设学习器在测试集中的表现为： $m$ 个测试样本中有 $m^{'}$ 个被错误地分类，即
$\begin{align} \hat{\epsilon} =\frac{m'}{m} \tag{3} \end{align}$

由式(2)、式(3)知，在 ${\epsilon}$ 的条件下发生 $\hat{\epsilon}$ 的概率为 ${\epsilon}$ 的函数
$\begin{align} f({\epsilon})=P(\hat{\epsilon};{\epsilon})={m \choose \hat{\epsilon}m}\epsilon ^{ \hat{\epsilon}m}(1-\epsilon )^{m-\hat{\epsilon}m} \tag{4} \end{align}$
对其求导，有
$\begin{align} \frac{ \partial f({\epsilon})}{\partial{\epsilon} }= {m \choose \hat{\epsilon}m}\epsilon^{ \hat{\epsilon}m-1}(1-\epsilon )^{m-\hat{\epsilon}m-1}m(\hat{\epsilon}-\epsilon) \tag{5} \end{align}$
由式(5)中的 $(\hat{\epsilon}-\epsilon)$ 知，函数 $f({\epsilon})$ 从 $f (0) = 0$ 单调递增到最大值 $f(\hat{\epsilon})$ 然后单调下降到 $f({1})=0$ ，这种趋势像“正态分布”。

给定常数 $（{\epsilon_0}<\frac{1}{2}）$ ，由式(2)有
$\begin{align} P(i;{\epsilon}={\epsilon}_0)={m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}\qquad i=0,1,2,\cdots,m \tag{6} \end{align}$
$P(i;{\epsilon}={\epsilon}_0)$ 是关于 $i$ 的函数，但不是连续的。不能用上述求导方法来判断单调性，观察其特点，我们作比率
$\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & =\frac{m-i}{i+1}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & =\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}_0}{1-{\epsilon}_0},\qquad ({\epsilon}'=\frac{i}{m}) \tag{7} \end{align}$
式(7)分为两种情况：
当 ${\epsilon}'<{\epsilon}_0-\frac{1}{m}$ 时：
$\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & >\frac{1-{\epsilon}_0+1/m}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & >\frac{1-{\epsilon}_0}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}=1 \tag{8} \end{align}$
当 ${\epsilon}'>{\epsilon}_0$ 时：
$\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & <\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}'}{1-{\epsilon}'}\notag \\ & <\frac{1-{\epsilon}'}{{\epsilon}'}\times\frac{{\epsilon}'}{1-{\epsilon}'}=1 \tag{9} \end{align}$
由 ${\epsilon}'=\frac{i}{m}$ ，将式(8)、式(9)转化为由 $i$ 表达，即
$\begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)}\ \begin{cases} >1,\qquad (\text{当}\quad i<[m{\epsilon}_0-1]) \\ <1,\qquad (\text{当}\quad i>[m{\epsilon}_0]) \\ \end{cases} \tag{10} \end{align}$
由式(10)知， $P(i;{\epsilon}={\epsilon}_0)$ 也具有像“正态分布”的两侧增减性质：
先升至 $P([m{\epsilon}_0];{\epsilon}={\epsilon}_0)$ 再降，这即是【西瓜书图2.6】所示。

式(10)揭示 $P(i;{\epsilon}={\epsilon}_0)$ 具有“尾部”性质，给定显著水平 $\alpha$ （小概率的阈值），可取
$\begin{align} k^*=\mathop{\min}\limits_k\sum_{i=k}^mP(i;{\epsilon}={\epsilon}_0)<\alpha \tag{11} \end{align}$
取 $\overline{\epsilon}$ 满足 $m\overline{\epsilon}+1=k^*$ ，式(11)转化为
$\begin{align} \overline{\epsilon}=\mathop{\min}\limits_{{\epsilon}'}\sum_{i={\epsilon}'m+1}^m{m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}<\alpha \tag{12} \end{align}$
式(12)即为【西瓜书式(1.27)】。

现在，我们考察在条件 ${\epsilon}={\epsilon}_0$ 下，事件 $\hat{\epsilon}>\overline{\epsilon}$ 发生的概率
$\begin{align} P(\hat{\epsilon}>\overline{\epsilon};{\epsilon}={\epsilon}_0) & =P(\frac{m'}{m}>\overline{\epsilon};{\epsilon}={\epsilon}_0)\notag \\ & =P(m'>m\overline{\epsilon };{\epsilon}={\epsilon}_0)\notag \\ & =P((m\overline{\epsilon }+1)\cup (m\overline{\epsilon }+2)\cup \cdots \cup (m);{\epsilon}={\epsilon}_0)\notag \\ & =\sum_{i=k^*}^mP(i;{\epsilon}={\epsilon}_0)\notag \\ & <\alpha \tag{13} \end{align}$
由此即可得到二项检验的临界值法，其步骤：

（1）提出原假设 $H_0:\epsilon = \epsilon _0$ ，（ $\epsilon _0<\frac{1}{2}$ 为常数）。

（2）确定显示水平 $\alpha$ （小概率的阈值），将 $\alpha,\epsilon _0$ 代入式(12)计算临界值 $\overline{\epsilon}$ 。

（3）试验：学习器在测试集中进行试验（测试），统计得到 $m^{'}$ ，计算 $\hat{\epsilon}=\frac{m'}{m}$ 。

（4）作出判断：若 $\hat{\epsilon}>\overline{\epsilon}$ ，则由式(13)说明小概率事件发生了，应拒绝原假设 $H_0$ ，接受备选假设 $H_1$ ；否则，接受原假设 $H_0$ 。

$t$ 检验

由统计学知识知【西瓜书式(2.30)】定义的统计量 $\tau _t$ 服从 $t$ 分布，如【西瓜书图(2.7)】所示，类似式(1)得到双测
“尾部”为 $[t_{\alpha/2},+\infty)$ 和 $(-\infty,-t_{\alpha/2}]$ ，单侧时为 $[t_\alpha,+\infty)$ 。通常编制双侧情况下 $\alpha$ 与 $t_{\alpha/2}$ 的对应关系表，那么，对于单侧，则令 $\alpha_1=\alpha/2$ 转化为双侧。

检验步骤：

（1）提出原假设（这里 $H_0$ 的意思是：可用测试的平均性能作为泛化性能。实际上我们就是这样做的，这里就是要检验这样做的合理性）， $H_0:\mu =\epsilon _0$ ，（ $\epsilon _0$ 为常数），其中， $\mu =\epsilon$ 为平均测试错误率， $\epsilon _0$ 为泛化错误率。

（2）确定显示水平下的临界值，即给定显示水平 $\alpha$ ，由 $\alpha$ 及 $k$ 查【西瓜书表2.3】得到临界值 $t_{\alpha/2,k-1}$ 。

（3）根据学习器的测试数据，计算统计量 $\tau _t$ 的实际值 $\hat{\tau _t}$ 。

（4）比较 $\hat{\tau _t}$ 与临界值 $t_{\alpha/2,k-1}$ ，按“临尾而拒”的规则来判断是否接受原假设。

从上述我们可以看出，先提出需要检验的假设（即原假设），再根据该假设及统计学知识设计合适的统计量（如，上述的统计量 $\tau _t$ ），后续步骤则是按部就班的。

似然比检验*

本小节我们利用似然函数及极大似然法MLE相关知识构造出一种检验方法。这小节需要较多的统计学知识，有一定的难度。

1.参数模型

设参数模型： $\theta =\theta (\eta )$ ，对于样本集 ${x_i\}_{i=1}^n$ ，其似然函数是关于 $\theta$ 的函数
$\begin{align} L(\theta)=\prod _{i=1}^np(x_i;\theta) \tag{14} \end{align}$
$\theta$ 的极大似然估计MLE为
$\begin{align} \hat{\theta} =\arg\mathop{\max}\limits_{\theta}L(\theta) \tag{15} \end{align}$
作似然比
$\begin{align} R({\theta} )=\frac{L ({\theta} )}{ L (\hat{\theta} )} \tag{16} \end{align}$
现在讨论对假设 $H_0:\theta =\theta_0$ 的检验。

（1）在参数模型中，MLE可以“代入”：
若参数 $\eta$ 的MLE为 $\hat{\eta}$ ，则该参数的函数 $\theta =\theta (\eta )$ 的MLE为 $\hat{\theta} =\theta (\hat{\eta} )$ 。

(2)Milks定理表明：在适当条件（略）下，当样本数趋于无穷多时，有
$\begin{align} -2{\log}(R({\theta} ))\text{依分布收敛于}\chi ^2 \tag{17} \end{align}$
其中， $\chi ^2$ 的自由度常取参数 ${\theta}$ 的维数 $c$ 。

基于结论式(17)，对 $\chi ^2$ 图象进行依 $\alpha$ 截尾处理（保留置信范围 $(1-\alpha )$ ），可解不等式得到参数 $\theta (\eta)$ 的置信域
$\begin{align} \{\theta_0 |R({\theta_0} )\geqslant r_{\alpha } \} \tag{18} \end{align}$
其中， $r_{\alpha }$ 与显著水平 $\alpha$ 相关，为简单起见，我们取为常数 $c$ （参数 ${\theta}$ 的维数）。即：如果 $(\eta _0)$ 比 $(\hat{\eta} )$ “小得多”（即 $R({\theta_0} )<c$ ），则拒绝原假设 $H_0:\theta =\theta_0$ ，反之，则接受原假设。

2.非参数模型

参考上述参数模型中的情形，我们构造出非参数模型中的“假设 $H_0:\theta =\theta_0$ ”的检验。

设非参数模型（因 $F$ 不是参数，故为非参数模型，又 $F$ 是函数，故我们写为泛函的中括号表达 $\theta [F]$ ）： $\theta =\theta [F]$ ，其中， $F$ 随机变量 $X$ 的累计分布函数（亦称分布函数）
$\begin{align} F(x)=P(X\leqslant x) \tag{19} \end{align}$
取 $n$ 个样本 $X_j,(j=1,2,\cdots,n)$ ，定义其经验似然函数为
$\begin{align} L_n[F] & =\prod _{j=1}^nP(X_j) \tag{20} \end{align}$
设取出的样本（严格来讲是独立同分布随机变量各进行一次采样）。 $X_j,(j=1,2,\cdots,n)$ 中只有 $K$ 个不相同的值 $\{z_1,z_2,\cdots,z_K\}$ ，各值对应的概率分别为 $\{P_1,P_2,\cdots,P_K\}$ ，各值出现的次数分别为 $\{n_1,n_2,\cdots,n_K\}$ ，则对式(20)中进行“合并同类项”处理，有
$\begin{align} L_n[F] & =\prod _{i=1}^KP_i^{n_i} \tag{21} \end{align}$
样本 $\{ z_1,z_2,\cdots,z_K\}$ 对应的频率为 $\{ \frac{n_1}{n},\frac{n_2}{n},\cdots,\frac{n_K}{n}\}$ ，对式(21)以频率代替概率，记
$\begin{align} L_n(\hat{F}) & =\prod _{i=1}^K(\frac{n_i}{n})^{n_i} \tag{22} \end{align}$
作经验似然比
$\begin{align} R_n[F] & =\frac{L_n[F]}{L_n(\hat{F})}\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i} \tag{23} \\ & =\prod _{i=1}^K\left(\frac{P_i}{\hat{P}_i}\right)^{n_i} \tag{23-1} \end{align}$
其中， $\hat{P}_i=\frac{n_i}{n}$ 为 $z_i$ 出现的频率。

由于样本值 $z_i$ 对应的概率为 $P_i$ ，出现次数为 $n_i$ ，将概率 $P_i$ 分摊到取 $z_i$ 值的样本（ ${X_j|X_j=n_i\}$ ）中， $X_j$ 分摊 $w_j$ ，则有
$\begin{align} P_i=\sum_{j:X_j=z_i}w_j,\quad i=1,2,\cdots,K\notag \\ nP_i=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K\notag \\ \sum_{j:X_j=z_i}\frac{nP_i}{n_i}=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K \tag{24} \end{align}$
其中，左边为对 $nP_i$ 进行等分。

因为：“和”一定的若干个数，当且仅当这些数等分“和”时，“积”最大，因式(24)左侧为已知的常数，故有
$\begin{align} \max \prod _{j:X_j=z_i}nw_j & =\prod _{j:X_j=z_i}\frac{nP_i}{n_i}\notag \\ & =\left(\frac{nP_i}{n_i}\right)^{n_i},\quad i=1,2,\cdots,K \tag{25} \end{align}$
将式(25)中的 $k$ 个式子连乘起来，有
$\begin{align} \max \prod _{i=1}^n nw_i & =\prod _{i=1}^K\left(\max \prod _{j:X_j=z_i}nw_j\right)\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i}\notag \\ & =R_n[F]\quad \text{（由式(23)）} \tag{26} \end{align}$
类比在参数模型时的情况式(17)，这时同样有结论（通常基于式(26)得截面经验似然比的结论，我们不作讨论）：在适当条件下，当样本数趋于无穷多时，有
$\begin{align} -2{\log} (R_n[F])\text{依分布收敛于}\chi ^2 \tag{27} \end{align}$
该结论式(27)即可用于统计检验。

对于二分类问题，我们做个转换:
$\begin{align} -2{\log}(R_n[F]) & =2{\log}(R_n[F])^{-1}\notag \\ & =2{\log}\left(\prod _{i=1}^2\left(\frac{P_i}{\hat{P}_i}\right)^{n_i}\right)^{-1}\notag \\ & =2{\log}\left(\left(\frac{\hat{P}_1}{P_1}\right)^{n_1}\left(\frac{\hat{P}_2}{P_2}\right)^{n_2}\right)\notag \\ & =2\left({n_1}{\log}\frac{\hat{P}_1}{P_1}+{n_2}{\log}\frac{\hat{P}_2}{P_2}\right) \tag{28} \end{align}$
其中，频率为 $\hat{P}_1=\frac{n_1}{n}$ ， $\hat{P}_2=\frac{n_2}{n}$ 。