L1正则化
L1正则化
L1正则化的定义,各个参数的绝对值之和:
首先推导L1正则化是如何进行权重衰减的:
-
首先将损失函数在最优解W*处进行二阶泰勒展开(假设Hession是对角矩阵)
-
将求和符号内看作整体 f (W) 并进行求导(由于W*为最优解,所以其一阶导为零)
-
由上式可知,如果另J(W)一阶导为零,需要分析J(Wi)的。首先我们将 f(Wi) 进行展开,并得到Wi与W的关系式(其中W为自变量)。
-
首先讨论 Wi > 0 的情况,此时sign(Wi) = 1。由上述②式进行推导可得
-
讨论 Wi < 0 的情况,此时sign(Wi) = -1。由步骤3的②式可得
-
然后讨论 Wi = 0 的情况,此时sign(Wi) = 0。由步骤3的②式得
-
此时单独讨论 W* 在 -α/Hii ~ α/Hii 的情况,首先观察 Wi>0 的时候,由第三步①式得。
现在分析一下为什么上式大于零,由于Wi 在-α/Hii ~ α/Hii范围内,所以Hii W* < α,而Wi也是大于零的。即Wi>0的时候导数大于零。
-
同第七步方法可得,W* 在 -α/Hii ~ α/Hii 的范围内,Wi小于零时,f(Wi)导数小于零。
由第七步和第八步可以看出,当W* 在 -α/Hii ~ α/Hii 的范围内的时候,函数最值取在Wi = 0(Wi>0的情况下导数大于零,Wi<0的情况下导数小于零)。
-
由上述可得
由上述推导结论可以看出,当W* 不在 -α/Hii ~ α/Hii 的范围内的时候,权重衰减的程度由 α 来控制;当 W* 在 -α/Hii ~ α/Hii 的范围内的时候,Wi = 0,即会产生稀疏效果。