DAY3_L1正则化

XY-CHINA

于 2021-11-02 23:16:50 发布

阅读量202

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/LXY_CHINA/article/details/121110201

版权

14 篇文章 1 订阅

订阅专栏

L1正则化
L1正则化的定义，各个参数的绝对值之和：在这里插入图片描述
首先推导L1正则化是如何进行权重衰减的：

首先将损失函数在最优解W*处进行二阶泰勒展开（假设Hession是对角矩阵）
将求和符号内看作整体 f (W) 并进行求导（由于W*为最优解，所以其一阶导为零）
由上式可知，如果另J(W)一阶导为零，需要分析J(Wi)的。首先我们将 f(Wi) 进行展开，并得到Wi与W的关系式（其中W为自变量）。
首先讨论 Wi > 0 的情况，此时sign(Wi) = 1。由上述②式进行推导可得
讨论 Wi < 0 的情况，此时sign(Wi) = -1。由步骤3的②式可得
然后讨论 Wi = 0 的情况，此时sign(Wi) = 0。由步骤3的②式得
此时单独讨论 W* 在 -α/Hii ~ α/Hii 的情况，首先观察 Wi>0 的时候，由第三步①式得。
现在分析一下为什么上式大于零，由于Wi 在-α/Hii ~ α/Hii范围内，所以Hii W* < α，而Wi也是大于零的。即Wi>0的时候导数大于零。
同第七步方法可得，W* 在 -α/Hii ~ α/Hii 的范围内，Wi小于零时，f(Wi)导数小于零。由第七步和第八步可以看出，当W* 在 -α/Hii ~ α/Hii 的范围内的时候，函数最值取在Wi = 0（Wi>0的情况下导数大于零，Wi<0的情况下导数小于零）。
由上述可得
由上述推导结论可以看出，当W* 不在 -α/Hii ~ α/Hii 的范围内的时候，权重衰减的程度由 α 来控制；当 W* 在 -α/Hii ~ α/Hii 的范围内的时候，Wi = 0，即会产生稀疏效果。

关注