机器学习笔记-2.模型评估与选择之比较检验

学习内容

  • 评估方法
  • 评估指标
  • 比较检验

三. 比较检验

1. 如何进行比较检验

有了实验评估方法和评估指标,看似可以对分类器的性能进行评估比较了:先使用某种试验评估方法测得分类器的某个评估指标结果,然后对这些结果进行比较。但怎么来做这个“比较”呢?

直接选取相应评估方法在相应度量下比大小的方法不可取!

因为关于性能比较:

  • 测试性能并不等于泛化性能
  • 测试性能会随着测试集的变化而变化
  • 很多机器学习算法本身有一定的随机性

统计假设检验

统计假设检验为分类器的性能比较提供了重要依据,基于其结果我们可以推断出,若在测试集上观察到分类器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。

假设检验是数理统计学中根据一定条件由样本推断总体的一种方法。假设检验定义如下:

  • 在总体的分布函数完全未知或已知其形式,但不知其参数的情况,为了推断总体的某些未知特性,提出一些关于总体的假设。我们要根据样本对所提出的的假设做出是接受还是拒绝的决策。

我们对这个定义分解来看:

  1. 条件:满足情况。(总体的分布函数完全未知或已知其形式,但不知其参数)
  2. 目标:以推断总体的某些未知特性为目标
  3. 方法:提出某些关于总体的假设
  4. 行动:根据样本所提出的的假设做出是接受还是拒绝的决策。

我们来结合一个例子来理解假设检验的定义,以分类任务的【错误率】为例

  1. 条件:现实中我们不知道学习器的泛化错误率,只能获知其测试错误率。但是二者的分布情况极有可能相似。这就符合了              定义中“分布函数完全未知或已知其形式但不知其参数”的情况。
  2. 目标:要推断的未知特性:若在测试集上观察到分类器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论               的把握有多大。
  3. 方法:以书中的例子为例,“ \epsilon=\epsilon_{0} ”,将泛化错误率假设为某数值 \epsilon_{0} 。
  4. 行动:通过显著度来判断做出的假设该被接受还是被拒绝。

2.对单个学习器泛化性能的假设的检验方法:二项检验 和 t 检验

    二项检验(对于一个测试误差率)

在包含了 m 个样本的测试集上,【泛化错误率为 \epsilon 的学习器】被测得测试错误率为 \tilde{\epsilon} 的概率为:

(因为测试错误率为意味着在m个测试样本中恰有\tilde{\epsilon}Xm个被误分类。)

可见,这个概率服从二项分布

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值