regularization 规范化（L1，L2等等）：加惩罚函数降低过拟合

最新推荐文章于 2024-04-01 11:40:02 发布

丁磊_Ml

最新推荐文章于 2024-04-01 11:40:02 发布

阅读量8.2k

点赞数 2

分类专栏：机器学习--林轩田机器学习--台大林轩田文章标签： L1规范 L2规范惩罚函数防止过拟合

本文链接：https://blog.csdn.net/mosbest/article/details/52188945

版权

机器学习--林轩田同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

机器学习--台大林轩田

20 篇文章 7 订阅

订阅专栏

这称为岭回归
一般模型
选择最好的惩罚函数
- L1L2 规范

在上一节的课程中，我们讲到
这里写图片描述
右图用的是１０次方程去拟合，左图用的是２次方程去拟合。很显然１０次方程发生过拟合现象。那么我们就选择化简模型，将１０次模型转化为２次模型。
我们先假设将x域映射到z域的函数 $\Phi (x)$ 为(对于所有的非线性模型，都存在映射函数 $\Phi (x)$ )
这里写图片描述
那么１０次模型和２次模型的表达式分别为
　
通过比较，可以发现，要想把１０次模型转化为２次模型，只需将 $w_3,w_4,...,w_10$ 都设为０即可。即

所以，我们的方法就是，加约束条件。
所以我们的转化就是
这里写图片描述
但是，我们发现，完全把１０次降为２次太过头了。比如也许模型 $x^6+x+1＝０$ 比模型 $x^２+x+1＝０$ 要好。所以，我们就把约束条件放松一些，即我们希望 $w_10,w_9,...,w_0$ 只要有8为０就行了，而不是一定 $w_10,w_9,...,w_３$ 为０．
即变为
这里写图片描述
其实，对于这样形式的是NP hard ，不好求解（在ＰＬＡ中我们谈到过）。那么我们就将他转化为可以微分的形式。Ｃ是我们自己给的。

其实这样还有个好处：他又把要求放松了一些。他不是要求一定要有８个ｗ为０，而是要求所有的权重平方和小于Ｃ就行。Ｃ是我们自己给的。

为了简单，我们现在只考虑线性模型
那么他的 $E_{in}$ 为
这里写图片描述　
他的约束条件为
　
总结就是
　
如果没有约束条件的话，那么要想最小化 $E_{in}$ ，那么只需求出沿着梯度的方向一只滚到谷底就行，但是现在有了约束条件　，就不能那么自由自在的向下滚了。
不难发现，这里写图片描述　就是要求点必须在以 $\sqrt C$ 为半径的圆内。那么我们可以画出图形来：
　
一般情况下，离谷底最近的点是在圆的边界上面的。那在什么时候有最优解呢？就是不能再下降的时候。梯度方向再切线方向（绿线）有分量时，表明还可以下降。所以当梯度方向这里写图片描述在切线方向（绿线）无分量时，即互相垂直时，得到最好的情况。此时，梯度方向与法线（w,红线）就平行。注意：根据图可知，是正平行。那么梯度与法线（w,红线）的成正比。我们设比值为 $\frac{2\lambda}{N}$ 。由于是正平行，那么比值必须为正值，即 $\lambda>=0$
所以我们就将
这里写图片描述　
转化为了
　　
这样做的好处，就是他对于w是线性的，可以直接求出来

这称为岭回归

在模型是线性回归，且加上权重平方和作为惩罚函数的(即 $||w||^2$ )就是岭回归。

一般模型

我们上面讲的是认为模型是线性回归，所以 $E_{in}$ 已经给好了。那么现在处理其他模型情况。
这里写图片描述　
我们回想一下，我们以前想最小化 $E_{in}$ ，那么我们令他的梯度为０就行。所以我们把上面的式子就认为是某一函数的梯度，求这个梯度为０，就是想最小化某一个函数，这个函数就是上面式子的积分

所以可以总结为
这里写图片描述

注意： $\lambda$ 很小的时候（比如0.001），就可以使得模型很大程度避免过拟合，大了(比如１)，反而会欠拟合。
$\lambda$ 是人为给定的，具体取值方法见下一讲。 $\lambda$ 越大，就会使得模型权重w减小，模型抖动就小，就越简单。　

我们回想一下，我们先前有假设映射函数为这里写图片描述
当数据都处于[-1,1]之间时，对于高次幂 $x^Q_n$ 的数据，就会比其他次幂小的多。如果我们模型需要高次幂，但是 $x^Q_n$ 很小，那么就必须增大权重来提高其影响力，但是惩罚函数又会限制权重的增大，这就照成了问题。方法就是让 $\Phi (x)$ 内的向量是互相正交的，即Legendre　polynomials。
这里写图片描述

选择最好的惩罚函数

根据我们想要的target function ｆ来选
比如，我知道我的ｆ(x)是偶函数，那么我就希望我的g内偶次幂的权重大。即我要尽可能降低我奇次幂的权重。即把惩罚函数设为
如果我希望我们模型光滑，简单，那就用Ｌ１规范
如果我希望我的模型任意达到最优，就是效果好，那就用Ｌ２规范

L1要求低，精度低，但计算量小