DAY3_L1正则化

L1正则化

L1正则化
L1正则化的定义,各个参数的绝对值之和:在这里插入图片描述
首先推导L1正则化是如何进行权重衰减的:

  1. 首先将损失函数在最优解W*处进行二阶泰勒展开(假设Hession是对角矩阵)在这里插入图片描述

  2. 将求和符号内看作整体 f (W) 并进行求导(由于W*为最优解,所以其一阶导为零)在这里插入图片描述

  3. 由上式可知,如果另J(W)一阶导为零,需要分析J(Wi)的。首先我们将 f(Wi) 进行展开,并得到Wi与W的关系式(其中W为自变量)。在这里插入图片描述

  4. 首先讨论 Wi > 0 的情况,此时sign(Wi) = 1。由上述②式进行推导可得在这里插入图片描述

  5. 讨论 Wi < 0 的情况,此时sign(Wi) = -1。由步骤3的②式可得在这里插入图片描述

  6. 然后讨论 Wi = 0 的情况,此时sign(Wi) = 0。由步骤3的②式得在这里插入图片描述

  7. 此时单独讨论 W* 在 -α/Hii ~ α/Hii 的情况,首先观察 Wi>0 的时候,由第三步①式得。
    在这里插入图片描述现在分析一下为什么上式大于零,由于Wi 在-α/Hii ~ α/Hii范围内,所以Hii W* < α,而Wi也是大于零的。即Wi>0的时候导数大于零。

  8. 同第七步方法可得,W* 在 -α/Hii ~ α/Hii 的范围内,Wi小于零时,f(Wi)导数小于零。在这里插入图片描述由第七步和第八步可以看出,当W* 在 -α/Hii ~ α/Hii 的范围内的时候,函数最值取在Wi = 0(Wi>0的情况下导数大于零,Wi<0的情况下导数小于零)。

  9. 由上述可得在这里插入图片描述
    由上述推导结论可以看出,当W* 不在 -α/Hii ~ α/Hii 的范围内的时候,权重衰减的程度由 α 来控制;当 W* 在 -α/Hii ~ α/Hii 的范围内的时候,Wi = 0,即会产生稀疏效果。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值