正则化

最新推荐文章于 2023-03-06 10:18:55 发布

如风过境YD

最新推荐文章于 2023-03-06 10:18:55 发布

阅读量168

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_35649945/article/details/97648178

版权

Machine Learning 专栏收录该内容

27 篇文章 4 订阅

订阅专栏

在衡量建立模型的好坏时，我们通常使用误差函数来检测，并进行调参，以找到最好的拟合函数，使得达到误差最小化。
但通常会出现这样的情况：模型在训练集上拟合的很好，而在测试集上拟合的效果较差，误差较大(过拟合)。如图：我们应该让模型拟合停在一个合适的点（Testing error最低的地方）。
在这里插入图片描述
那么应该怎么知道Tesing set上的误差呢，我们可以使用训练集中的数据进行交叉验证（在训练集里采样验证集）。
还有一种方法是正则化：

L2正则化

假设原来模型用误差函数做为损失函数 $l o s s$ : $L(\theta),\theta$ 在这里代表了模型中的参数。
正则化需要将损失函数稍作修改： $\mathrm{L}^{\prime}(\theta)=L(\theta)+\lambda \frac{1}{2}\|\theta\|_{2}，其中\{w_1,w_2...\}表示参数，\|\theta\|_{2}=\left(w_{1}\right)^{2}+\left(w_{2}\right)^{2}+\ldots表示参数的平方和,1/2是希望在1求导时约掉平方。$
$L(\theta)$ 考虑的是将误差或交叉熵最小化， $\|\theta\|_{2}$ 表示惩罚项，希望L2-范数的值越小越好，即描述网络的复杂度。
求梯度：
$\frac{\partial \mathrm{L}^{\prime}}{\partial w}=\frac{\partial \mathrm{L}}{\partial w}+\lambda w$
更新参数：
$w^{t+1} \leftarrow w^{t}-\eta \frac{\partial L^{\prime}}{\partial w} =w^{t}-\eta\left(\frac{\partial L}{\partial w}+\lambda w^{t}\right)\\=(1-\eta \lambda) w^{t}-\eta \frac{\partial \mathrm{L}}{\partial w}$
和原来的参数更新比较 $w^t$ 的系数多了 $(1-\eta \lambda)$ ,随着参数的更新，这一项会越来越接近零，后面的一项 $\eta \frac{\partial \mathrm{L}}{\partial w}$ 会和它取得平衡，当取得平衡时，学习就停止了。

L1正则化

和L2正则化不同的就是 $\theta$ 的不同。
$\mathrm{L}^{\prime}(\theta)=L(\theta)+\lambda \frac{1}{2}\|\theta\|_{1}，其中：\|\theta\|_{1}=\left|w_{1}\right|+\left|w_{2}\right|+\ldots$
$\frac{\partial \mathrm{L}^{\prime}}{\partial w}=\frac{\partial \mathrm{L}}{\partial w}+\lambda \operatorname{sign}(w)，其中sign是符号函数，表示取w的符号，w=0时，函数值等于零。$
更新参数：
$\begin{array}{l}{w^{t+1} \leftarrow w^{t}-\eta \frac{\partial \mathrm{L}^{\prime}}{\partial w}=w^{t}-\eta\left(\frac{\partial \mathrm{L}}{\partial w}+\lambda \operatorname{sign}\left(w^{t}\right)\right)} \\ {=w^{t}-\eta \frac{\partial \mathrm{L}}{\partial w}-\eta \lambda \operatorname{sign}\left(w^{t}\right)}\end{array}$ 即如果参数大于零, $-\eta \lambda \operatorname{sign}\left(w^{i}\right)$ 表示减去一个数，小于零就会加上一个数，即向零的位置移动一段距离。
$\lambda \in (0,1)$ ,用于对经验误差与网络复杂度这两项进行折中，常通过交叉验证来估计。
采用L1范数时平方误差项等值项与正则化项等值线的交点常出现在坐标轴上，即 $w_1,w_2,...$ 为0，而在采用L2范数时，两者的交点常出现在某个象限中，即 $w_1,w_2,...$ 非0，所以，采用L1范数比L2范数更易于得到稀疏解。
$w$ 取得稀疏解意味着初始的d个特征中仅有对应着w的非零向量的特征会最终出现在最终模型中。基于L1正则化的学习方法是一种嵌入式选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。
L2对参数较大的惩罚较强(因为它是参数乘一个小于1大于0的值，使它逼近零)，L1对较大较小参数惩罚相同。