正则化

最新推荐文章于 2020-08-26 15:57:13 发布

hxj_rain

最新推荐文章于 2020-08-26 15:57:13 发布

阅读量513

点赞数

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhhxiaojian/article/details/78186273

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

正则化

—————-以下来源深度学习圣经———————–

正则化的定义为： “旨在减少学习算法的泛化误差，而不是训练误差的修改”。

一个有效的正则化时有利的“交易”，也就是能够显著减小方差，而不会过度增加偏差。

参数范数惩罚

我们将正则化的目标函数记为： $\hat{J}(\theta;X.y) = J(\theta;X,y)+\alpha\Omega(\theta)$

参数规范 $\Omega$ 的不同选择可以导致不同的优先解，在神经网络中我们通常指对每一层的仿射变换的权重做惩罚，而不对偏置做正则惩罚。有时希望对网络的每个层使用单独的惩罚，并分配不同的 $\alpha$ 系数，搜索多个正确超参数的代价很大，因此所有层使用相同权重衰减以减少搜索空间是合理的。

$L^2$ 参数正则化

最常见的参数惩罚是通常被称为权重衰减（weight decay）的 $L^2$ 参数范数惩罚。即向目标函数添加一个正则项 $\Omega(\theta) = \frac{1}{2}||\omega||_2^2$ 。 $L^2$ 也被称为岭回归。

带有正则化的成本函数：

$\tilde{J}(\omega;X,y) = \frac{\alpha}{2}w^Tw + J(w;X,y)$

那么更新方式：
$w\leftarrow(1-\epsilon\alpha)w-\epsilon\triangledown_wJ(w;X,y)$

整个训练过程发生什么？

假设， $w^*$ 为没有正则化的目标函数取的最小训练误差的权重向量。即 $w^* = argmin_wJ(w)$ 讲 $J(w)$ 在 $w^*$ 点泰勒展开如下：
$\hat{J}(\theta) = J(w^*) + \frac{1}{2}(w-w*)^TH(w-w*)$

当 $\hat{j}$ 取最小值的时候，梯度：
$\triangledown_w\hat{J}(w) = H(w-w*)=0$

将权重衰减项加入到上式，可得：
$\tilde{w} = Q(\Lambda+\alpha I )^{-1}\Lambda Q^Tw^*$

我们可以看到权重衰减的效果是沿着H的特征向量所定义的轴进行缩放 $w^*$ .具体来说，与H第i个特征向量对齐的 $w^*$ 的分量根据 $\frac{\lambda_i}{\lambda_i+\alpha}$ 因子进行缩放。

沿着H特征值较大的方向，正则化的影响较小，而较小的分量将会被缩小到几乎为零。

例如：线性回归的目标函数：
$(Xw-y)^T(Xw-y)$

添加正则项以后，目标函数变为：
$(Xw-y)^T(Xw-y) +\frac{1}{2}\alpha w^Tw$

将普通方程的解从

$w = (X^TX)^{-1}X^{T}y$

变为

$w= (X^TX+\alpha I)^{-1}X^Ty$

$\alpha I$ 矩阵的对角项对应着每个输入特征的方差。因此，协方差较小的特征的权重将会相对被收缩的厉害一些。

$L^1$ 参数正则化

2范数的权重衰减是正则化的最常见的形式，同样还有1范数

具体的成本函数为：
$\tilde{J}(w;X,y)=\alpha||w||_1+J(w;X,y)$

同样，若 $w^*$ 为不带正则化时，的最优解。那么：
$w_i = sign(w_i^*)max\{|w^*|-\alpha/H_{i,i},0\}$

所以：

$w_i^*<=\frac{\alpha}{H_{i,i}}$ 的情况。则正则化项将 $w_i$ 推向0
$w_i^*>\frac{\alpha}{H_{i,i}}$ 的情况。这种情况下，正则化项不会将w推向0，但是会让w在那个方向上移动。

相比 $L^1$ 正则化会产生更加稀疏的解，稀疏是指参数中含有更多的0值，2范数的正则化项不会导致参数变得更加的稀疏。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则化

正则化正则化的定义为： “旨在减少学习算法的泛化误差，而不是训练误差的修改”。一个有效的正则化时有利的“交易”，也就是能够显著减小方差，而不会过度增加偏差。参数范数惩罚我们将正则化的目标函数记为：J^(θ;X.y)=J(θ;X,y)+αΩ(θ)\hat{J}(\theta;X.y) = J(\theta;X,y)+\alpha\Omega(\theta)参数规范Ω\Omega 的不同选择可以导致不
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。