学习器利用错误率性能比较检验方法

最新推荐文章于 2022-08-29 14:50:17 发布

你再翻一页就好了

最新推荐文章于 2022-08-29 14:50:17 发布

阅读量915

点赞数

分类专栏：机器学习文章标签：机器学习统计学数据分析

本文链接：https://blog.csdn.net/qq_41542141/article/details/105973544

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

比较检验是为了对机器学习器性能值进行评估的方法：
一般的我们都有F1-score值，ROC值
如果进行泛化比较，一般含有不同样本值、样本大小和重复测试都会造成最终性能度量值的不同。所以要寻求新的检验方法：
hypothesis test提供了，前提：测试集观察结果A如果优于B，则A的泛化性能在统计意义上是否也会优于B，以及这个结论的把握程度(置信度)，性能度量指标为∈

一：假设检验（两种）
假设检验中的"假设"是对学习器错误率分布的某种判断或猜想，比如： $\epsilon$ = $\epsilon_0$ ；
实际上我们不知道泛化误差率，只有测试误差率，在我们认知中，两者接近的可能性比较大，相差很远的可能性比较小，可以根据测试误差错误率来推测泛化误差错误率；
实际上就是对于一个样本犯错误的概率。在一个样本个数为m，其中个样本进行误分类的的概率为：
$P(\stackrel\frown{\epsilon}; \epsilon)$ = $\left( \begin{array}{c} m \\ \stackrel\frown{\epsilon} * m \end{array} \right)$ ${\epsilon^{\stackrel\frown{\epsilon}*m}}$ ${(1-\epsilon)^{m{-\stackrel\frown{\epsilon} * m}}}$
这个式子也表明在m个测试集上，泛化错误率为的学习器被测得错误率为 $\stackrel\frown{\epsilon}$ 的概率
这样就给定了测试错误率；通过解 $P(\stackrel\frown{\epsilon}; \epsilon)$ ，可知在 $\epsilon=\stackrel\frown{\epsilon}$
时，取的最大。
增大时，减小，这符合二项分布。我们可以利用置信度进行检验，
在这里插入图片描述
在整个分布中，α点的左边为可接受的错误率，左边的错误率后的累加值是置信区间(confidence)，即为1-α;
更一般的描述为：
$\stackrel\frown\epsilon$ = $max\epsilon$ $\sum_{i=\epsilon_0×m+1}^m$ $\left( \begin{array}{c} m \\ i \end{array} \right)$ $\epsilon^i(1-\epsilon)^{m-i}$
此时若测试错误率 $\stackrel\frown\epsilon$ 小于临界值 $\bar{\epsilon}$ ，在α的显著度下(即犯错误的概率)，假设" $\epsilon\leqslant\epsilon_0$ “不能被拒绝，否则该假设可被拒绝。
很多时候在操作的时候，我们重复多次留出法或是交叉验证法等进行多次的训练，这样我们可以得到多次的测试错误率，此时可以使用” $t 检验$ "，假定我们得到多个测试错误率, $\hat\epsilon_1$ 、 $\hat\epsilon_2$ 、 $\hat\epsilon_3$ 、 $\hat\epsilon_4$ … $\hat\epsilon_k$ 。
变量 $\tau_t$ = $\frac{\sqrt{k}(\mu-\epsilon_0)}{\sigma}$ 服从自由度为k-1的t分布。
对于假设" $\mu$ = $\epsilon_0$ “和显著度” $\alpha$ ",可以计算出当测试错误率均值" $\epsilon_0$ "时，在1- $\alpha$ 概率内能观测到的最大错误率，即临界值，所以我们可以知道均值 $\mu$ 。
我们考虑双边检验(two_tailed)假设（因为最后的结果值可能为负数），即两边的 $\alpha$ 都是显著度，在置信区间之外，假定阴影范围在(- $\infty$ ,- $t_{\alpha/2}$ ]和[ $t_{\alpha/2}$ , $\infty$ ).若平均错误率 $\mu$ 与 $\epsilon_0$ 之差| $\mu$ - $\epsilon_0$ |位于临界值范围内，则不能拒绝假设 $\mu=\epsilon_0$ ,置信度为1- $\alpha$ ; $\alpha$ 常用取值为0.05和0.1。
这个双边假设检验，是针对单个学习器和理论差别的对比。

交叉验证t检验：

对两个学习器，使用k折交叉验证得到的测试错误率分别为 ${\epsilon_1}^A$ , ${\epsilon_2}^A$ , ${\epsilon_3}^A$ ,…, ${\epsilon_k}^A$ 和 ${\epsilon_1}^B$ , ${\epsilon_2}^B$ , ${\epsilon_3}^iB$ ,…, ${\epsilon_k}^B$ ，其中 ${\epsilon_i}^A$ 和 ${\epsilon_i}^B$ 是在相同的第i折训练/测试集上得到的结果,则可以用k折交叉验证"成对t检验"(paired t-tests)来进行比较检验。（以上表述的基本思想,若两个机器学习的性能相同，则它们使用的训练集/测试集得到的测试错误率应相同，即 ${\epsilon_i}^A$ = ${\epsilon_i}^B$ ）

对这"两个学习器A与B性能相同"这个假设做t检验，计算出差值的均值 $\mu$ 和方差 $\sigma^2$
在k折交叉验证产生的k对测试测试错误率:先对每对结果求差，用两个学习器之间测试错误率之差， $\vartriangle_i$ = $\vartriangle\epsilon_i^A$ - $\vartriangle\epsilon_i^B$ ,t检验就是对两个学习器的差值做假设t检验,在显著度 $\alpha$ 下，若变量 $\tau_t$ =| $\frac{\sqrt{k}\mu}{\sigma}$ |小于临界值，则假设不能被拒绝；否则认为两个学习器有绝对差异，且平均值最小的学习器性能最优。

问题：

有效检验的前提是：测试误差率为泛化误差率的独立采样，但一般样本有限，使用交叉验证时，不同轮次会有一定的重叠，这就使得测试错误率并不独立，会导致过高的估计假设成立的概率

解决方法：
采用"5*2交叉检验"：每次用2折交叉检验的平均值，来作为错误率的平均: $\mu$ =0.5( $\vartriangle_i^1+\vartriangle_i^2$ )，每2折试验的结果都计算出其方差 $\sigma_i^2$ =( ${\vartriangle_i^1-\frac{\vartriangle_i^1+\vartriangle_i^2}{2}}^2$ )+( ${\vartriangle_i^2-\frac{\vartriangle_i^1+\vartriangle_i^2}{2}}^2$ );
变量： $\tau_t$ = $\frac{\mu}{\sqrt{0.2\sum_{i=1}^5{\sigma_i^2}}}$ 服从自由度为5的 $t 分布$

你再翻一页就好了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习器利用错误率性能比较检验方法

比较检验是为了对机器学习器性能值进行评估的方法：一般的我们都有F1-score值，ROC值如果进行泛化比较，一般含有不同样本值、样本大小和重复测试都会造成最终性能度量值的不同。所以要寻求新的检验方法：hypothesis test提供了，前提：测试集观察结果A如果优于B，则A的泛化性能在统计意义上是否也会优于B，以及这个结论的把握程度(置信度)，性能度量指标为∈一：假设检验（两种）假设检...
复制链接

扫一扫