学习内容
- 评估方法
- 评估指标
- 比较检验
三. 比较检验
1. 如何进行比较检验
有了实验评估方法和评估指标,看似可以对分类器的性能进行评估比较了:先使用某种试验评估方法测得分类器的某个评估指标结果,然后对这些结果进行比较。但怎么来做这个“比较”呢?
直接选取相应评估方法在相应度量下比大小的方法不可取!
因为关于性能比较:
- 测试性能并不等于泛化性能
- 测试性能会随着测试集的变化而变化
- 很多机器学习算法本身有一定的随机性
统计假设检验
统计假设检验为分类器的性能比较提供了重要依据,基于其结果我们可以推断出,若在测试集上观察到分类器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。
假设检验是数理统计学中根据一定条件由样本推断总体的一种方法。假设检验定义如下:
- 在总体的分布函数完全未知或已知其形式,但不知其参数的情况,为了推断总体的某些未知特性,提出一些关于总体的假设。我们要根据样本对所提出的的假设做出是接受还是拒绝的决策。
我们对这个定义分解来看:
- 条件:满足情况。(总体的分布函数完全未知或已知其形式,但不知其参数)
- 目标:以推断总体的某些未知特性为目标
- 方法:提出某些关于总体的假设
- 行动:根据样本所提出的的假设做出是接受还是拒绝的决策。
我们来结合一个例子来理解假设检验的定义,以分类任务的【错误率】为例
- 条件:现实中我们不知道学习器的泛化错误率,只能获知其测试错误率。但是二者的分布情况极有可能相似。这就符合了 定义中“分布函数完全未知或已知其形式但不知其参数”的情况。
- 目标:要推断的未知特性:若在测试集上观察到分类器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论 的把握有多大。
- 方法:以书中的例子为例,“ ”,将泛化错误率假设为某数值 。
- 行动:通过显著度来判断做出的假设该被接受还是被拒绝。
2.对单个学习器泛化性能的假设的检验方法:二项检验 和 t 检验
二项检验(对于一个测试误差率)
在包含了 个样本的测试集上,【泛化错误率为 的学习器】被测得测试错误率为 的概率为:
(因为测试错误率为意味着在个测试样本中恰有X个被误分类。)
可见,这个概率服从二项分布。