[Python嗯~机器学习]---过拟合的解决思路和正则化

最新推荐文章于 2024-08-03 13:57:10 发布

鹏鹏哥哥的小红帽

最新推荐文章于 2024-08-03 13:57:10 发布

阅读量1.6k

点赞数 1

分类专栏：鹏鹏哥哥的机器学习文章标签：机器学习过拟合欠拟合正则化

本文链接：https://blog.csdn.net/kepengs/article/details/84862617

版权

鹏鹏哥哥的机器学习专栏收录该内容

52 篇文章 12 订阅

订阅专栏

过拟合问题

前面我们在博客中讨论了线性回归和逻辑回归，这两种算法都是为了通过大量数据训练之后得到一个
假设函数模型来预测我们未来添加的样本。

这时候就会出现一个问题 ，我们的假设函数有的时候太逼近真实值中的每一个点，几乎完美的拟合了
训练集所有的数据点，那么预测一个没有出现过的数据样本就可能产生一个很大误差，（训练集上误差
很低，测试集上误差很高）这种情况下就是很好的拟合了数据，但是具有很低的泛化能力。
另一方面，如果我们的假设函数只是大体上拟合了样本数据，有很多点没有被拟合进去，同时损失
函数也很大，（训练集上误差很低，测试集上误差很高）这时候这个模型有很大的泛化能力，毕竟都是不
准确的，但是拟合能力很差。

所以，前者就是过拟合，后者就是欠拟合 。

过拟合：如果我们有过多的特征，那么学习得到的函数可以在训练集上表现得非常出色，但是可能难以在
新数据上泛化。

这两种情况我们都是要避免的。

这时候又会产生一个问题 ，怎么描述一个假设函数曲线来去说是过拟合还是欠拟合？

从下图中的线性回归和逻辑回归的拟合曲线上我们可以发现，高阶项（函数复杂度）越多就会对数据的拟合能力
越强，特征数目越多对数据的拟合能力越强。（1、高阶项【模型复杂度】 2、特征数目）

解决过拟合的思路：（2个）

用损失函数来解释：

从上图中，我们可以看到左面的曲线高阶项没有右边高阶项次数高，明显右侧有点过拟合了，但是这时候我们
不想丢弃特征，那么我们，用一个有惩罚的高阶项（可能高阶项不同
程度的减小），来达到保留了高阶项（特征）又避免过拟合的基础上，又不至于因为丧失某些特征之后出现欠拟
合。
如何惩罚高阶项？
代价函数描述：

这时候我们在损失函数后面加上要惩罚的高阶项，如上图
如果我们想高阶项系数尽可能的小，那么就给一个很大的常数，如1000，如果高阶项系数很大那么整个loss就会
很大。那么上面式子在梯度下降的过程中就会使得高阶项系数不断的减小。这时候比较小的高阶项系数就会使得
高阶项起作用的影响变小，就会一定程度解决过拟合的问题。

上图中第二个粉色的项就是把所有的需要的起作用的参数 θ 都考虑进来，并对他们进行惩罚。
粉丝中括号中的前一项代表的是数据拟合程度，后一项表示模型复杂度。

讨论 λ ：

所以我们可以看出来 λ 实际就是惩罚的程度，λ 越大 θ 的作用程度越低，拟合程度越低，模型复杂度
越低； λ 越小 θ 起作用的程度越大，拟合程度越高，模型复杂度越大。
例如：

假如上图 λ 非常大，那么为了保证带 λ 一项足够小就会使得所有惩罚的系数都会很小接近于 0，这时候拟合
曲线就是一条直线，明显是欠拟合。同理，反之过拟合。