L1正则和L2正则对网络参数的影响

一、正则化的来源

        在深度网络的训练中,参数如果没有一个”正则化”的限制,很可能会导致过拟合(容易过大或过小),因此在制定损失函数时,往往加入对参数的约束,这就是正则化,通常的正则化有L1正则,L2正则或者两者的搭配权重使用。无论是L1还是L2正则,都有着把参数量变小的效果,但是L1正则由于函数图像的特殊性,导致了一种稀疏化的特性,便于选择特征。

 

二、L1正则的稀疏化选择特性

我们知道,L1正则将绝对值函数作为正则化的约束,那么如图所示:

 

加入了L1正则的损失函数定义为\delta =f(x)_{loss}+\left \| W \right \|_{1},将损失函数看成两个部分,想要同时减少两个部分,考虑极限情况,这两个属于互相对抗的损失,在某个点一定可以找到两者的平衡点,由于L1正则函数的尖锐,并且所有尖锐点处于坐标轴上,因此有更大的概率形成稀疏化。

反观L2就很可能在其他点找到平衡,最后造成都是一些很小的但是不会变成0的参数。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值