周志华机器学习西瓜书学习笔记（二）下 | 第二章：模型评估与选择

Ds_fz

于 2024-08-30 22:00:18 发布

阅读量911

点赞数 18

分类专栏：周志华机器学习西瓜书学习笔记文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/2201_75859438/article/details/141725513

版权

周志华机器学习西瓜书学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

4. 比较检验

（一）对单个学习器泛化性能的假设检验

假设检验中的“假设”是 对学习器泛化错误率分布的某种判猜测，例如“ $\varepsilon =\varepsilon _0$ ”。现实任务中我们并不知道学习器的 泛化错误率 $\varepsilon$ ，只能获知其 测试错误率 $\widehat{\varepsilon }$ 。泛化错误率与测试错误率未必相同，但直观上，二者接近的可能性应比较高。

泛化错误率为 $\varepsilon$ 的学习器在一个样本上犯错的概率是 $\varepsilon$ ;测试错误率 $\widehat{\varepsilon }$ 意味着在m个测试样本中恰有 $\widehat{\varepsilon }\times m$ 个被误分类。假定测试样本是从样本总体分布中独立采样而得，那么泛化错误率为 $\varepsilon$ 的学习器将其中m'个样本误分类、其余样本全都分类正确的概率是 $\binom{m}{m'}\varepsilon ^{m'}(1-\varepsilon )^{m-m'}$ 。

由此可估算出其恰将 $\widehat{\varepsilon }\times m$ 个样本误分类的概率如下式所示，这也表达了在包含m个样本的测试集上，泛化错误率为 $\varepsilon$ 的学习器被测得测试错误率为 $\widehat{\varepsilon }$ 的概率：

$P(\widehat{\varepsilon };\varepsilon)=\binom{m}{\widehat{\varepsilon }\times m}\epsilon ^{\widehat{\varepsilon }\times m}(1-\varepsilon ^{m-\widehat{\varepsilon }\times m})$

给定测试错误率，则解 $\frac{\partial P(\widehat{\varepsilon };\varepsilon)}{\partial \varepsilon }=0$ 可知， $P(\widehat{\varepsilon };\varepsilon)$ 在 $\varepsilon =\widehat{\varepsilon }$ 时最大， $\left | \varepsilon -\widehat{\varepsilon } \right |$ 增大时 $P(\widehat{\varepsilon };\varepsilon)$ 减小。

4.1.1 二项检验

这符合 二项(binomial)分布，我们可使用 “二项检验”(binomial test)进行检验，考虑假设“ $\varepsilon \leq \varepsilon _0$ ”,则在1-α的概率内所能观测到的最大错误率为：

此时若测试错误率 $\widehat{\varepsilon }$ 小于临界值 $\overline{\varepsilon }$ ,则根据二项检验可得出结论：在α的显著度下，“ $\varepsilon \leq \varepsilon _0$ ”不能被拒绝，即能以1-α的置信度认为，学习器的泛化错误率不大于 $\varepsilon _0$ ;否则该假设可被拒绝。

4.1.2 t 检验

对于多次重复留出法或是交叉验证法等进行多次训练/测试的情况，这样会得到多个测试错误率，此时可使用 “t检验”(t-test)。假定我们得到了k个测试错误率， $\widehat{\varepsilon_1},\widehat{\varepsilon_2},...,\widehat{\varepsilon_k}$ ,平均测试错误率μ和方差σ²为

考虑到这k个测试错误率可看作泛化错误率 $\varepsilon _0$ 的独立采样，则下面变量服从自由度为 k-1的t分布：

对假设“μ= $\varepsilon _0$ ”和显著度α,我们可计算出当测试错误率均值为 $\varepsilon _0$ 时，在1-α概率内能观测到的最大错误率，即临界值。这里考虑双边(two-tailed)假设，两边阴影部分各有α/2的面积；假定阴影部分范围分别为 $[-\infty,t_{-\frac{\alpha }{2}} ]$ 和 $[t_{\frac{\alpha }{2}},\infty ]$ 。若 $\left | \mu -\varepsilon _0 \right |$ 位于临界值范围 $[t_{-\frac{\alpha }{2}},t_{\frac{\alpha }{2}} ]$ ,则不能拒绝假设“μ= $\varepsilon _0$ ”,即可认为泛化错误率为 $\varepsilon _0$ ,置信度为1-α;否则可拒绝该假设。

（二）对不同学习器泛化性能的假设检验

4.2.1 交叉验证t检验

对两个学习器A和B,若我们使用k折交叉验证法得到的测试错误率分别为 $\varepsilon _1^{A},\varepsilon _2^{A},...,\varepsilon _k^{A}$ 和 $\varepsilon _1^{B},\varepsilon _2^{B},...,\varepsilon _k^{B}$ ，其中 $\varepsilon _i^A$ 和 $\varepsilon _i^B$ 是在相同的第i折训练/测试集上得到的结果，则可用k折交叉验证“成对t检验”(paired t-tests)来进行比较检验，这里的基本思想是若两个学习器的性能相同，则它们使用相同的训练/测试集得到的测试错误率应相同，即 $\varepsilon _i^A=\varepsilon _i^B$ 。

具体来说，对k折交叉验证产生的k对测试错误率：先对每对结果求差， $\Delta_i=\varepsilon _i^A-\varepsilon _i^B$ ;若两个学习器性能相同，则差值均值应为零。因此，可根据差值 $\Delta_1,\Delta_2,...,\Delta_k$ 来对“学习器A与B性能相同”这个假设做t检验，计算出差值的均值μ和方差σ²,在显著度α下，若变量 $\tau_t=\left | \frac{\sqrt{k}\mu }{\sigma} \right |$ 小于临界值 $t_{\alpha /2,k-1}$ ，则假设不能被拒绝，即认为两个学习器的性能没有显著差别；否则可认为两个学习器的性能有显著差别，且平均错误率较小的那个学习器性能较优。这里 $t_{\alpha /2,k-1}$ 是自由度为k-1的t分布上尾部累积分布为α/2 的临界值。为保证测试错误率均为泛化错误率的独立采样，得到有效的假设检验，常采用“5×2交叉验证”。

4.2.2 McNemar检验

对二分类问题，使用留出法不仅可估计出学习器A和B的测试错误率，还可获得两学习器分类结果的差别，即两者都正确、都错误、一个正确另一个错误的样本数，如“列联表”：

若我们做的假设是两学习器性能相同，则应有 $e_{01}=e_{10}$ ,那么变量 $\left | e_{01}-e_{10} \right |$ 应当服从正态分布，McNemar检验考虑变量 $\tau_{\chi ^2}=\frac{(\left | e_{01}-e_{10} \right |-1)^2}{e_{01}+e_{10}}$ ，服从自由度为1的 $\chi ^2$ 分布，即标准正态分布变量的平方。给定显著度α,当以上变量值小于临界值 $\chi_\alpha ^2$ 时，不能拒绝假设，即认为两学习器的性能没有显著差别；否则拒绝假设，即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。

4.2.3 Friedman 和 Nemenyi后续检验

当有多个算法参与比较时，一种做法是在每个数据集上分别列出两两比较的结果，而在两两比较时可使用前述方法；另一种方法更为直接，即使用基于算法排序的 Friedman检验。
假定我们用D₁、D₂、D₃和D₄四个数据集对算法A、B、C进行比较。首先，使用留出法或交叉验证法得到每个算法在每个数据集上的测试结果，然后在每个数据集上根据测试性能由好到坏排序，并赋予序值1,2,..;若算法的测试性能相同，则平分序值。例如，在D₁和D₃上，A最好、B其次、C最差，而在D₂上，A最好、B与C性能相同，……,则可列出下表,其中最后一行通过对每一列的序值求平均，得到平均序值。

若算法性能相同，则它们的平均序值也相同。假定我们在N个数据集上比较k个算法，令 $r_i$ 表示第 i个算法的平均序值，为简化讨论，暂不考虑平分序值的情况，则 $r_i$ 服从正态分布，其均值和方差分别为 $(k+1)/2,(k^2-1)/12N$ 。使用变量 $\tau_F=\frac{(N-1)\tau_{\chi ^2}}{N(k-1)-\tau_{\chi ^2}}$ ，其中 $\tau_F$ 服从自由度为k-1和(k-1)(N-1)的F分布，且：