L1L2正则化图形解读

Gaffey大杂烩

已于 2022-09-10 17:08:08 修改

阅读量634

点赞数 2

分类专栏：深度学习文章标签：算法机器学习 python

于 2022-09-10 17:06:56 首次发布

本文链接：https://blog.csdn.net/qq_41496421/article/details/126796574

版权

深度学习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

L1L2正则化图形解读

L1L2正则化图形解读
在学习L1、L2正则化的过程中一定看过下面这两幅图，看过之后确实懂了L1和L2正则化的区别，无非是一个相交在坐标轴，一个不在坐标轴。但这一圈圈等高线怎么来的，L1正则化一定相交在坐标轴吗？为什么会相交在坐标轴呢？本篇文章从头开始画出这幅图，并介绍其由来。
在这里插入图片描述

前提假设

由该图的横纵坐标可以看出，损失函数有 $w_1、w_2$ 两个参数。
本文模型就假定使用的是二元线性回归： $\hat{y} = w_1x_1+w_2x_2$
损失函数为平方差损失 $J_0=(y-\hat{y})^2=(y-w_1x_1-w_2x_2)^2$
L1正则项为： $\sum_{w}{|w|} = |w_1| + |w_2|$
总损失为： $J=J_0+\alpha\sum_{w}{|w|}$ ， $\alpha$ 为惩罚项，代表正则所占比重

L1正则

$J_0$ 损失值等高线形成过程
在这里插入图片描述
（1）迭代中或初始时任一组 $w_1,w_2)$ ，假设在第一象限，其他情况同理。
（2）找到其他组 $w_1,w_2)$ 使得 $J_0$ 值相等。
（3）将 $J_0$ 值相等的无数组 $w_1,w_2)$ 连成线，称作等高线，等高线中心的点是使 $J_0$ 值为0的点，通常不存在该情况。
（4）画出不同的 $J_0$ 值组成的等高线。

L1正则项等高线形成过程
在这里插入图片描述
（1）迭代中或初始时任一组 $w_1,w_2)$ ，假设在第一象限，其他情况同理。
（2）找到其他组 $w_1,w_2)$ 使得 $\sum_{w}{|w|}$ 值相等。
（3）将 $\sum_{w}{|w|}$ 值相等的无数组 $w_1,w_2)$ 连成线，称作等高线。
（4）画出不同的 $\sum_{w}{|w|}$ 值组成的等高线。

总损失形成过程
在这里插入图片描述
（1）假设初始点为 $w_1,w_2)$ ，画出该点所在的 $J_0$ 值等高线和正则项等高线，初始点各种相交情况都有可能发生。
（2）正则项 $L1=|w_1| + |w_2|$ ，以 $w_1$ 为例， $L1(w_1)=|w_1|$

图2.1、2.2分别为 $L1(w_1)$ 与 $\frac{\partial L1(w_1)}{\partial w_1}$ 的坐标图，可以看出在第一象限 $w_1$ 导数恒为1，由梯度下降公式 $w_1=w_1-lr*grad$ ，会使得正则项等高线往靠近原点方向移动，最终会与 $J_0$ 等高线相切，或者说在相切时才能使得正则项和 $J_0$ 损失值同时最小。