机器学习笔记-2.模型评估与选择之比较检验

最新推荐文章于 2024-06-26 21:54:59 发布

BLvren_

最新推荐文章于 2024-06-26 21:54:59 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blvren_/article/details/88170770

版权

本文探讨了在机器学习中如何正确评估和比较模型的性能。指出直接比较测试性能是不可靠的，应该依赖于统计假设检验。介绍了二项检验和t检验作为单个学习器泛化性能的假设检验方法，并解释了交叉验证t检验在比较不同学习器性能时的作用，强调了独立采样在假设检验中的重要性。

摘要由CSDN通过智能技术生成

学习内容

评估方法
评估指标
比较检验

三. 比较检验

1. 如何进行比较检验

有了实验评估方法和评估指标，看似可以对分类器的性能进行评估比较了：先使用某种试验评估方法测得分类器的某个评估指标结果，然后对这些结果进行比较。但怎么来做这个“比较”呢？

直接选取相应评估方法在相应度量下比大小的方法不可取！

因为关于性能比较：

测试性能并不等于泛化性能
测试性能会随着测试集的变化而变化
很多机器学习算法本身有一定的随机性

统计假设检验

统计假设检验为分类器的性能比较提供了重要依据，基于其结果我们可以推断出，若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

假设检验是数理统计学中根据一定条件由样本推断总体的一种方法。假设检验定义如下：

在总体的分布函数完全未知或已知其形式，但不知其参数的情况，为了推断总体的某些未知特性，提出一些关于总体的假设。我们要根据样本对所提出的的假设做出是接受还是拒绝的决策。

我们对这个定义分解来看：

条件：满足情况。（总体的分布函数完全未知或已知其形式，但不知其参数）
目标：以推断总体的某些未知特性为目标
方法：提出某些关于总体的假设
行动：根据样本所提出的的假设做出是接受还是拒绝的决策。

我们来结合一个例子来理解假设检验的定义，以分类任务的【错误率】为例

条件：现实中我们不知道学习器的泛化错误率，只能获知其测试错误率。但是二者的分布情况极有可能相似。这就符合了定义中“分布函数完全未知或已知其形式但不知其参数”的情况。
目标：要推断的未知特性：若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。
方法：以书中的例子为例，“ $\epsilon=\epsilon_{0}$ ”，将泛化错误率假设为某数值 $\epsilon_{0}$ 。
行动：通过显著度来判断做出的假设该被接受还是被拒绝。

2.对单个学习器泛化性能的假设的检验方法：二项检验和 t 检验

二项检验（对于一个测试误差率）

在包含了个样本的测试集上，【泛化错误率为 $\epsilon$ 的学习器】被测得测试错误率为 $\tilde{\epsilon}$ 的概率为：

（因为测试错误率为意味着在个测试样本中恰有 $\tilde{\epsilon}$ X个被误分类。）

可见，这个概率服从二项分布。

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。