机器学习笔记-2.模型评估与选择之比较检验

最新推荐文章于 2024-05-31 13:21:26 发布

BLvren_

最新推荐文章于 2024-05-31 13:21:26 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/BLvren_/article/details/88170770

版权

1. 如何进行比较检验

有了实验评估方法和评估指标，看似可以对分类器的性能进行评估比较了：先使用某种试验评估方法测得分类器的某个评估指标结果，然后对这些结果进行比较。但怎么来做这个“比较”呢？

直接选取相应评估方法在相应度量下比大小的方法不可取！

因为关于性能比较：

统计假设检验

统计假设检验为分类器的性能比较提供了重要依据，基于其结果我们可以推断出，若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

假设检验是数理统计学中根据一定条件由样本推断总体的一种方法。假设检验定义如下：

在总体的分布函数完全未知或已知其形式，但不知其参数的情况，为了推断总体的某些未知特性，提出一些关于总体的假设。我们要根据样本对所提出的的假设做出是接受还是拒绝的决策。

我们对这个定义分解来看：

我们来结合一个例子来理解假设检验的定义，以分类任务的【错误率】为例

条件：现实中我们不知道学习器的泛化错误率，只能获知其测试错误率。但是二者的分布情况极有可能相似。这就符合了定义中“分布函数完全未知或已知其形式但不知其参数”的情况。
目标：要推断的未知特性：若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。
方法：以书中的例子为例，“ $\epsilon=\epsilon_{0}$ ”，将泛化错误率假设为某数值 $\epsilon_{0}$ 。
行动：通过显著度来判断做出的假设该被接受还是被拒绝。

2.对单个学习器泛化性能的假设的检验方法：二项检验和 t 检验

二项检验（对于一个测试误差率）

在包含了个样本的测试集上，【泛化错误率为 $\epsilon$ 的学习器】被测得测试错误率为 $\tilde{\epsilon}$ 的概率为：

（因为测试错误率为意味着在个测试样本中恰有 $\tilde{\epsilon}$ X个被误分类。）

可见，这个概率服从二项分布。

关注