关于L1和L2正则化的考虑

最新推荐文章于 2024-06-08 16:09:48 发布

Artyze

最新推荐文章于 2024-06-08 16:09:48 发布

阅读量491

点赞数

分类专栏：机器学习基础文章标签： L1 L2正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Artyze/article/details/87939890

版权

机器学习基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前面通过学习大致知道了L1和L2正则化的作用：

L1正则化：会使权重中的某些值在训练过程中变为0，从而达到使网络稀疏化的效果

L2正则化：极小的概率会使权重变为0，但是同样能够使权重相比他拟合数据集后应该成为的值变得更小，从而减小过拟合的风险，所以从这个角度来看，L1正则化同样具有一定的防止过拟合的效果，毕竟都已经稀疏了。

那么我们就从L1和L2的公式来看一下为什么L1具有稀疏化的作用：

L1：

$Loss(L1) = Loss + \lambda\left | w \right |$

L2：

$Loss(L2) = Loss + \frac{\lambda }{2}*w^{2}$

分别使Loss对w进行求导，假如第一项Loss对w的导数为a，则

L2：

$\left | \frac{\partial Loss(L2)}{\partial w} \right |_{w=0^{-}}= a + \lambda w$

由L2正则化的损失函数对wj的导数可以看出，如果导数为0时， $w =-a / \lambda$ ，因此当该导数最小的时候不会是w = 0的时候，除非a = 0，那这样我们还需要训练啥，损失值导数都为0了，换句话说，当损失函数最小的时候，L2正则化的w不会是0，也就达不到稀疏的效果

L1：

$\left | \frac{\partial Loss(L1)}{\partial w} \right |_{w=0^{-}}= a - \lambda$

$\left | \frac{\partial Loss(L1)}{\partial w} \right |_{w=0^{+}}= a + \lambda$

假如当w < 0时，也就是第一个公式值小于0，而当w > 0时，第二个公式值大于0，那也就是说，w = 0处梯度的值为0，此时梯度最小，达到训练效果。当然并不是所有的wj都会满足前面的条件，所以不会所有的w都会变成0，也就是稀疏矩阵咯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。