过拟合

最新推荐文章于 2023-04-26 10:19:02 发布

朱小丰

最新推荐文章于 2023-04-26 10:19:02 发布

阅读量1.5w

点赞数 6

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41866216/article/details/84991744

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

index：

- 机器学习中过拟合的概念
- 抑制过拟合的方法

过拟合

过拟合：模型过于复杂，在训练集上面的拟合效果非常好甚至可以达到损失为0 但是在测试集的拟合效果很不好

欠拟合：模型过于简单在训练集和测试集的拟合的效果都不好

例： sin曲线拟合

数据产生模型是由sin函数和噪声组成的。这个随机生成的噪声满足正太分布均值为0 方差：0.003的平方

使用模型生成10个数据点绿色代表函数 sin函数

关于多项式拟合：

当j=0时即用0阶多项式进行拟合拟合的函数是一条y=W0的直线

当j=1时即用1阶多项式进行拟合拟合的函数是y=W1x+W0 是一条有斜率有截距的一次函数形状是一条直线

当j=2时即用2阶多项式进行拟合拟合的函数是y=W2x²+ W1x+W0 是一条抛物线

以此类推不同阶级的多项式拟合函数

下图为不同阶级的多项式拟合sin函数的图像：

由上图可以看出： 0阶多项式和 1阶多项式模型过于简单不能拟合出sin函数的形状这种现象叫做欠拟合

3阶多项式刚好拟合出sin函数的图像这样的拟合效果是理想中的效果

9阶多项式模型过于复杂虽然把图中所有的数据点都记住了但是模型自身波动很大对于新的数据不能有好的预测效果这种现象叫过拟合。

也可以通过训练误差和预测误差的角度来分析模型的拟合程度：

误差计算公式：

注：公式中开根号是为了把数值放在与 y相同的量级上。

不同阶级的多项式函数在训练集和测试集上面的拟合效果

从上图可以看出：

从0到3 模型过于简单训练集和测试集拟合的效果都不好

从3到8 ： 3点模型达到了拟合的效果从3 往后模型变的更加复杂但是对于拟合的效果没有更好的提升这块模型复杂度提升是不必要的反而增加了计算的复杂度和内存的占用。

从8到9 ：模型更加复杂完全拟合训练数据但是在预测数据上面的预测误差大幅度的加大这样的模型不能在新的数据上面有很好的预测效果属于过拟合现象

评价模型性能的不应该在在训练集的学习的效果上而应该在新的数据（测试集）上的预测能力上

这个叫模型的泛化能力 也叫推广性。

不同拟合效果的参数

可以看到过拟合模型的参数数值上是很大的，在图像上面显示就是即使x小幅度的变化在预测残差上面也会波动很大。

抑制过拟合的方法

1增加训练的样本数量

2在损失函数上面添加正则项

3改变数据生成模型的噪声生成的方差

在目标函数中增加正则

在给定有限训练样本数目时，可通过在目标函数中增加正则项减弱过
拟合现象

给定N = 10个样本点，目标函数中增加L2正则项，得到岭回归
(Ridge Regression)

岭回归系数（正则项系数）：

• λ越大，回归系数（绝对值/平方）越小，模型越简单。

不同正则参数对应岭回归的训练误差 vs. 测试误差

λ越大，对模型复杂度惩罚越多，模型越简单，越不容易过拟合。

常用正则项

j是从1开始计算的，因为j=0时 W0对应的是截距项正则项不对截距项进行惩罚。

还有一个正则是L0正则他可以是一部分参数w 数值为0 从而起到特征选择的效果

但是L0正则是一个np难问题我们一般不使用L0正则

L1正则是L0正则在数学上的最优凸优化因此L1正则有着和L0 相似的效果即把部分参数压制到接近0 的效果。

还有一种减弱过拟合的另一种方法是减少数据的噪声。就是减小生成的数据的波动大小

一般情况下生成数据的函数是固定的

样本的数量也可能是固定的

我们最常用的抑制过拟合的方法就是添加正则项

关注

6
点赞
踩
35

收藏

觉得还不错? 一键收藏
2
评论
过拟合

index：- 机器学习中过拟合的概念- 抑制过拟合的方法过拟合过拟合：模型过于复杂，在训练集上面的拟合效果非常好甚至可以达到损失为0 但是在测试集的拟合效果很不好欠拟合：模型过于简单在训练集和测试集的拟合的效果都不好例： sin曲线拟合数据产生模型是由sin函数和噪声组成的。这个随机生成的噪声满足正太分布均值为0 方差：0.003的平方...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。