[Python嗯~机器学习]---过拟合的解决思路和正则化

过拟合问题

前面我们在博客中讨论了线性回归和逻辑回归,这两种算法都是为了通过大量数据训练之后得到一个
假设函数模型来预测我们未来添加的样本。

这时候就会出现一个问题  ,我们的假设函数有的时候太逼近真实值中的每一个点,几乎完美的拟合了
训练集所有的数据点,那么预测一个没有出现过的数据样本就可能产生一个很大误差,(训练集上误差
很低,测试集上误差很高
)这种情况下就是很好的拟合了数据,但是具有很低的泛化能力。
        另一方面,如果我们的假设函数只是大体上拟合了样本数据,有很多点没有被拟合进去,同时损失
函数也很大,(训练集上误差很低,测试集上误差很高)这时候这个模型有很大的泛化能力,毕竟都是不
准确的,但是拟合能力很差。

所以,前者就是过拟合,后者就是欠拟合 

过拟合:如果我们有过多的特征,那么学习得到的函数可以在训练集上表现得非常出色,但是可能难以在
              新数据上泛化。

这两种情况我们都是要避免的。

这时候又会产生一个问题 ,怎么描述一个假设函数曲线来去说是过拟合还是欠拟合?

从下图中的线性回归和逻辑回归的拟合曲线上我们可以发现,高阶项(函数复杂度)越多就会对数据的拟合能力
越强,特征数目越多对数据的拟合能力越强。(1、高阶项【模型复杂度】 2、特征数目



解决过拟合的思路:(2个)

用损失函数来解释:

从上图中,我们可以看到左面的曲线高阶项没有右边高阶项次数高,明显右侧有点过拟合了,但是这时候我们
不想丢弃特征,那么我们,用一个有惩罚的高阶项(可能高阶项不同
程度的减小),来达到保留了高阶项(特征)又避免过拟合的基础上,又不至于因为丧失某些特征之后出现欠拟
合。
如何惩罚高阶项?
代价函数描述:

这时候我们在损失函数后面加上要惩罚的高阶项,如上图
如果我们想高阶项系数尽可能的小,那么就给一个很大的常数,如1000,如果高阶项系数很大那么整个loss就会
很大。那么上面式子在梯度下降的过程中就会使得高阶项系数不断的减小。这时候比较小的高阶项系数就会使得
高阶项起作用的影响变小,就会一定程度解决过拟合的问题。


上图中第二个粉色的项就是把所有的需要的起作用的参数 θ 都考虑进来,并对他们进行惩罚 。
粉丝中括号中的前一项代表的是数据拟合程度,后一项表示模型复杂度。

讨论 λ :

所以我们可以看出来 λ 实际就是惩罚的程度,λ 越大 θ 的作用程度越低,拟合程度越低,模型复杂度
越低; λ  越小 θ 起作用的程度越大,拟合程度越高,模型复杂度越大。
例如:

假如上图 λ 非常大,那么为了保证带 λ 一项足够小就会使得所有惩罚的系数都会很小接近于 0,这时候拟合
曲线就是一条直线,明显是欠拟合。同理,反之过拟合。

梯度下降:

普通的线性回归:


把正则化项放入梯度下降中得到上图公式,实现梯度下降的更新规则。

逻辑回归:

我们加入正则因子之后也会得到更好的决策边界。
梯度下降:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值