过拟合/欠拟合、偏差/方差

最新推荐文章于 2023-12-31 01:10:19 发布

褚骏逸

最新推荐文章于 2023-12-31 01:10:19 发布

阅读量2.8k

点赞数 1

分类专栏： machine_learning # deep_learning 文章标签：算法机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41171061/article/details/106258673

版权

目录

基本概念
机器学习的泛化能力
过拟合、欠拟合
参考

基本概念

偏差：度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。
噪声：描述了在当前任务上，任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。
经验误差：模型关于训练样本集的平均误差，也称经验风险。
结构风险：在经验风险的基础上加上表示模型复杂度的正则化项。
泛化误差：模型在新样本集（测试集）上的平均误差。泛化误差=偏差+方差+噪声
欠拟合：模型的经验误差大，模型太简单，在训练的过程中基本没学到有价值的内容。
过拟合：模型学习了太多的训练样本的“个性”（经验误差小），但是对于未知的样本泛化能力差（泛化误差大）。

机器学习的泛化能力

机器学习是逼近目标函数 $Y = f (X)$ 的过程。

归纳性学习：从训练数据学习目标函数的学习过程。
泛化：机器学习模型学习到的模型，在学习训练时没遇到的样本上的表现。
拟合：逼近目标函数的远近程度。通过描述函数和目标函数逼近的吻合程度来描述拟合的好坏。

机器学习模型的目标： 在问题领域内，从训练数据到任意的数据上泛化性能良好。即对模型没有见过的数据进行预测。

Q：训练时，为什么考虑模型在预测新数据时的泛化性能？
S：因为已知的数据是样本，是带有噪声且不完全的。

讨论一个机器学习模型学习和泛化能力的好坏时，通常使用：过拟合和欠拟合。它们是机器学习表现不佳的两大原因。

过拟合、欠拟合

概念

欠拟合：模型没有很好地捕捉到数据特征，不能够很好地拟合数据。
过拟合：模型把训练数据学习的太彻底，以至于把噪声数据的特征也学习到了，使得模型泛化能力差。在测试时，不能够很好地识别（正确分类）新数据。

过拟合：在训练数据上表现良好，在未知数据上表现差
欠拟合：在训练数据和未知数据上表现都很差

在这里插入图片描述

模型复杂度 $\uarr$ 的变化

开始时，模型往往是欠拟合的，也因此才有了优化的空间。
过程：不断的调整算法，使得模型的性能更好。
优化到了一定程度，就需要解决过拟合问题了。

与【偏差/方差】的关系

偏差

预测输出与真实标记的差别。
$bias^2(X)=(\overline f(X)-y)^2$

最低0.47元/天解锁文章

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
过拟合/欠拟合、偏差/方差

目录基本概念机器学习的泛化能力过拟合、欠拟合概念模型复杂度↑\uarr↑的变化与【偏差/方差】的关系偏差方差方差和偏差的关系【过/欠拟合】与【方差/偏差】的关系偏差-方差折衷【解决办法】欠拟合【解决办法】过拟合参考基本概念偏差：度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。方差：度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。噪声：描述了在当前任务上，任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。经验误
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。