【周志华机器学习】二、比较检验--方差--偏差

最新推荐文章于 2024-07-06 12:07:53 发布

CHH3213

最新推荐文章于 2024-07-06 12:07:53 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42301220/article/details/123948584

版权

机器学习专栏收录该内容

27 篇文章 64 订阅

订阅专栏

文章目录

参考资料
1. 比较检验
2. 偏差与方差

参考资料

本博客为作者根据周志华的西瓜书和参考资料1、2所做的笔记，主要用于学习，非技术类博客，因此存在大量复制粘贴，请见谅。

1. 比较检验

由于“测试误差”受到很多因素的影响，例如：算法随机性(例如常见的K-Means)或测试集本身的选择，使得同一模型每次得到的结果不尽相同，同时测试误差是作为泛化误差的近似，并不能代表学习器真实的泛化性能，那如何对单个或多个学习器在不同或相同测试集上的性能度量结果做比较呢？这就是比较检验。

1.1 假设检验

在比较学习器泛化性能的过程中，统计假设检验（hypothesis test）为学习器性能比较提供了重要依据，即若A在某测试集上的性能优于B，那A学习器比B好的把握有多大。为方便论述，本篇中都是以“错误率”作为性能度量的标准。

“假设”指的是对样本总体的分布或已知分布中某个参数值的一种猜想，例如：假设总体服从泊松分布。

我们可以通过测试获得测试错误率，直观上测试错误率和泛化错误率相差不会太远，因此可以通过测试错误率来推测泛化错误率的分布，这就是一种假设检验。

泛化错误率为 $\epsilon$ 的学习器在一个样本上犯错的概率是 $\epsilon$ ；测试错误率 $\hat{\epsilon}$ 意味着在 $m$ 个测试样本中恰有 $\hat{\epsilon}\times m$ 个被误分类。假定测试样本是从样本总体分布中独立采样而得，那么泛化错误率为 $\epsilon$ 的学习器将其中 $m^{'}$ 个样本误分类、其余样本全都分类正确的概率是 $\epsilon^{m'}(1-\epsilon)^{m-m'}$ ;由此可估算出其恰将 $\hat{\epsilon}\times m$ 个样本误分类的概率如下式所示,这也表达了在包含m个样本的测试集上,泛化错误率为 $\epsilon$ 的学习器被测得测试错误率为 $\hat{\epsilon}$ 的概率:
在这里插入图片描述
给定测试错误率,则解 $\frac{\partial P(\hat{\epsilon};\epsilon)}{\partial \epsilon}$ 可知, $P(\hat{\epsilon};\epsilon)$ 在 $\epsilon=\hat{\epsilon}$ 时最大， $|\epsilon-\hat{\epsilon}|$ 增大时 $P(\hat{\epsilon};\epsilon)$ 减小,这符合二项(binomial)分布,如图2.6所示,若 $\epsilon$ =0.3,则10个样本中测得3个被误分类的概率最大.

在这里插入图片描述

一般来说， $\alpha$ 通常取值为0.01,0.05或0.1。

在假设检验中,我们称, $\alpha$ 为显著性水平,也称显著度(significance)

称(1- $\alpha$ )为置信度(confidence)。

在这里插入图片描述

1.2 交叉验证t检验

1.3 McNemar检验

MaNemar主要用于二分类问题，与成对t检验一样也是用于比较两个学习器的性能大小。

主要思想
若两学习器的性能相同，则A预测正确B预测错误数应等于B预测错误A预测正确数，即 $e_{01}=e_{10}$ ，且 $e_{01}-e_{10}|$ 服从 $N(1，e_{01}+e_{10})$ 分布。

如下所示的变量

在这里插入图片描述

服从自由度为1的卡方分布，即服从标准正态分布N（0,1）的随机变量的平方和，上式只有一个变量，故自由度为1，检验的方法步骤依旧如下：
做出假设–>求出满足显著度的临界点–>给出拒绝域–>验证假设。

卡方分布补充
在这里插入图片描述

1.4 Friedman检验与Nemenyi后续检验

1.4.1 Friedman检验

上述的三种检验都只能在一组数据集上，F检验则可以在多组数据集进行多个学习器性能的比较，基本思想是在同一组数据集上，根据测试结果（例：测试错误率）对学习器的性能进行排序，赋予序值1,2,3…，相同则平分序值，如下图所示：

在这里插入图片描述

下面是F检验常用的临界值：

1.4.2 Nemenyi后续检验

若“H0：所有算法的性能相同”这个假设被拒绝，则说明算法的性能显著不同，需要进行后续检验，来得到具体的算法之间的差异。常用的就是Nemenyi后续检验。

Nemenyi检验计算出平均序值差别的临界值域
在这里插入图片描述

下表是常用的 $q_a$ 值，若两个算法的平均序值差超出了临界值域CD，则相应的置信度 $1 - α$ 拒绝“两个算法性能相同”的假设。
在这里插入图片描述

2. 偏差与方差

偏差-方差分解是解释学习器泛化性能的重要工具。

在学习算法中，偏差指的是预测的期望值与真实值的偏差，方差则是每一次预测值与预测值的期望之间的差均方。

实际上，偏差体现了学习器预测的准确度，而方差体现了学习器预测的稳定性。通过对泛化误差的进行分解，可以得到：

期望泛化误差=方差+偏差+噪声
偏差刻画学习器的拟合能力
方差体现学习器的稳定性

在这里插入图片描述

一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variancedilemma).

在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;

随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;

在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合.

简而言之：在欠拟合时，偏差主导泛化误差，而训练到一定程度后，偏差越来越小，方差主导了泛化误差。

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CHH3213 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。