正则化

最新推荐文章于 2024-07-31 22:20:25 发布

JK Chen

最新推荐文章于 2024-07-31 22:20:25 发布

阅读量1.5k

点赞数 3

分类专栏：机器学习 All

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jk_chen_acmer/article/details/103065545

版权

All 同时被 2 个专栏收录

629 篇文章 5 订阅

订阅专栏

25 篇文章 2 订阅

订阅专栏

问题引入

在这里插入图片描述
当预测函数的项次数过高时，算法为了降低代价，也就是差异，会跑出一条畸形的曲线。

虽然这条畸形的曲线完美的拟合了所有的数据点，但是显然这样一条曲线并不具有可推广性、泛化性。对于以后给出的数据也不能准确的预测。这种情况称为拟合过度。

一般在数据量较小，而特征值较多的情况下，过度拟合发生的概念较高。

正则化

为了在保留较小的高次项的基础上，解决过度拟合，我们需要进行正则化。

我们对于原有的代价函数 $J(\theta)$ ，使之增加对于高次项的惩罚，例如：
$J(\theta):=J(\theta)+1000\theta_4^2$
这样做的影响很明显，最后的预测函数中， $\theta_4$ 会尽可能的小。

但是实际上，我们需要让预测函数曲线更加的平滑，这需要使所有的参数都不要太大，所以，一般的正则化如下：
在这里插入图片描述
注意，由于 $\theta_0$ 影响的只是预测值的上下浮动距离，所以并不需要对其正则化。

正则化…… $\lambda$

$\lambda$ 是正则化参数，用于调节对这些参数的惩罚力度。

使用正则化后，我们的代价函数其实做到了两方面事情：拟合、防止过度拟合。而 $\lambda$ 起到了一个调节天平的作用。

当 $\lambda$ 过小，相当于没有正则化，起不到防止过度拟合的作用。

当 $\lambda$ 过大，会导致除 $\theta_1$ 外的项都趋近于0，最后的预测函数图像就类似一条水平线，我们称之为欠拟合。
在这里插入图片描述

正则化……线性回归……梯度下降法

我们将 $J(\theta)$ 写成上述形式后， $J(\theta)$ 对 $\theta_1...\theta_n$ 求偏导数的结果如下：
在这里插入图片描述
移项后变为：

正则化……线性回归……特征方程法

在求逆之前加上一个如下矩阵：
在这里插入图片描述
值得注意的是，加完这个矩阵后，结果的矩阵一定可逆，也就不需要使用伪逆运算了。

正则化……逻辑回归

在代价函数上加一项 $\dfrac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$ 即可避免过度拟合。
在这里插入图片描述
最后的偏导数部分，和你想的一样，除了 $h_\theta(x)$ 意义不同外，其它都是一样的：

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。