正则化（Regularization），权重衰减（Weight decay）

Yemiekai

已于 2023-08-17 08:54:36 修改

阅读量628

点赞数 4

分类专栏：概念文章标签： python 算法

于 2021-08-01 22:07:31 首次发布

本文链接：https://blog.csdn.net/Yemiekai/article/details/119219838

版权

在前面介绍了线性回归和逻辑回归，他们经常会遇到一个叫做过拟合（overfitting）的问题。
例如前面讲的房价预测例子，用线性回归拟合我们的数据:

在这里插入图片描述

(图1)

如果假设函数 $h_{\bm{\theta}}(\boldsymbol{x})$ （hypothesis function）参数太多，容易形成第 ③ 个曲线的样子。
如果假设函数过于简单，则结果像 ① 那样，欠拟合。

对于逻辑回归的分类问题也是如此：

在这里插入图片描述

(图2)

从图中可以看到，通常在参数较多的时候发生过拟合（最右边的曲线）。
这个时候它会拼命地拟合训练集，并且损失看起来很低。
但是对新的样本泛化能力不强。

处理办法：
(1) 减少选取变量的数量。
---- 手动选出要删除或保留的特征。（重要的保留，无用的去掉）
---- 模型算法自动选择。（后面讲）
(2) 正则化。
---- 所有特征都要，但是降低第 $j$ 个特征的权重 $\theta_j$ 。

看回这个例子：
在这里插入图片描述

(图3)

明显第 ① 条曲线是很优秀的，第 ② 条有点过拟合。

为了改进图 ② ，我们想把 $\theta_3$ $\theta_4$ 干掉，我们在代价函数加上两项蓝色的东西：
$J(\bm{\theta})=\frac{1}{2m} \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right)^2 \color{blue}{+ 1000 \, \theta_3^2 + 1000\, \theta_4^2}$

这两个东西会使整个代价函数变得很大。

在拟合参数的时候，为了降低这两个东西对代价函数的影响， $\theta_3$ 和 $\theta_4$ 会尽量变得小，甚至为零。于是就达到了我们的目的： $\theta_3 \approx 0，\theta_4 \approx 0$ ：
在这里插入图片描述
就变得和第 ① 条曲线一样了。

通常的写法是这样：
$J(\bm{\theta})=\frac{1}{2m} \left[ \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right)^2 +\textcolor{red}{\lambda \sum^{n}_{j=1} \theta_j^2}\right]\tag{1}$