L1和L2范数，L1和L2损失函数，L1和L2正则化

西笑生

已于 2022-02-12 17:58:07 修改

阅读量4.6k

点赞数 2

分类专栏：深度学习基础深度学习文章标签：损失函数正则化范数 L2 norm L2-norm

于 2018-03-18 16:48:16 首次发布

本文链接：https://blog.csdn.net/flyfish1986/article/details/79601997

版权

深度学习同时被 2 个专栏收录

149 篇文章 29 订阅

订阅专栏

深度学习基础

61 篇文章 23 订阅

订阅专栏

L1和L2范数，L1和L2损失函数，L1和L2正则化

flyfish

作为范数 L1-Norm和L2-Norm

L1-Norm
L1-Norm 也就是曼哈顿距离Manhattan distance
两点之间的曼哈顿距离是

P1: (X1, Y1)
P2: (X2, Y2)

在这里插入图片描述

$\mathrm{X}||_{1}={|x1-x2| + |y1-y2|}$
$\mathrm{X}||_{1}=|3|+|4|=7$
n维空间中的一个点是 (x1, x2, …, xN)，两点之间的曼哈顿距离是

P1: (X1, X2, ..., XN)
P2: (Y1, Y2, ..., YN)

${|x1-y1| + |x2-y2| + ...+ |xN-yN|}$
L2-Norm
在这里插入图片描述
L2-Norm也就是欧几里得距离 euclidean distance
P1: (X1, Y1)
P2: (X2, Y2)
$\sqrt{{(x1-x2)}^2\ +\ {(y1-y2)}^2}$
n维空间中的两点之间的欧几里得距离是
P1: (X1, X2, …, XN)
P2: (Y1, Y2, …, YN)
$\sqrt{{(x1-y1)}^2\ +\ {(x2-y2)}^2\ +\ ...\ +\ {(xN-yN)}^2}$
举个例子
在这里插入图片描述

$\begin{bmatrix} 3 \\ 4 \end{bmatrix}$

$\begin{aligned} {{u}}_2 &=\sqrt{|3|^2+|4|^2}\\ &=\sqrt{25}\\ &=5 \end{aligned}$

$L^2 norm = 5$
在这里插入图片描述

L1和L2作为损失函数（As An Error Function）

L1的式子(三个式子表达相同的意思换下字母的写法)
$\begin{aligned} & L_1(\hat{y}, y) = \sum_{i=0}^m|y^{(i)} - \hat{y}^{(i)}| \end{aligned}$

$S=\sum\limits_{i=1}^{n}|Y_{i}-f(x_{i})|.$
$\begin{aligned} & S = \sum_{i=0}^n|y_i - h(x_i)| \end{aligned}$
L2的式子(三个式子表达相同的意思换下字母的写法)
$\begin{aligned} & L_2(\hat{y},y) = \sum_{i=0}^m(y^{(i)} - \hat{y}^{(i)})^2 \end{aligned}$
$S=\sum\limits_{i=1}^{n}\Big(Y_{i}-f(x_{i})\Big)^{2}.$
$\begin{aligned} & S = \sum_{i=0}^n(y_i - h(x_i))^2 \end{aligned}$
代码实现

import numpy as np

def L1(yhat, y):
    loss = np.sum(np.abs(y - yhat))
    return loss

def L2(yhat, y):
    loss =np.sum(np.power((y - yhat), 2))
    return loss
#调用
yhat = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
y = np.array([1, 1, 0, 1, 1])

print("L1 = " ,(L1(yhat,y)))
print("L2 = " ,(L2(yhat,y)))

L1和L2作为正则化（As Regularization）

正则化定义：对学习算法的修改 - 皆在减少泛化误差而不是训练误差。
额外的约束和惩罚可以改善模型在测试集的表现。
对于线性回归模型，加入了L1正则项的模型叫做Lasso回归，加入了L2正则项的模型叫做Ridge回归
损失函数增加正则项,通常表达式前面乘上1/2,求导方便
LASSO回归
$J(\theta) = \frac{1}{2}\sum^m_{i=1}(h_{\theta}(x^{i}) - y^{(i)})^2 + \lambda\sum^n_{j=1} |\theta_j| \ \ \ \lambda > 0$
Ridge回归,岭回归
$J(\theta) = \frac{1}{2}\sum^m_{i=1}(h_{\theta}(x^{i}) - y^{(i)})^2 + \lambda\sum^n_{j=1} \theta_j^2 \ \ \ \lambda > 0$

OLS+正则项换字母写法
普通最小二乘法（Ordinary Least Squares，OLS）
$\begin{aligned} {\bf \hat{\beta}_{\text{OLS}}} &= \arg\min_{\bf \beta} \sum_{i=1}^{n} (y_i- (\beta_0 + \beta_1 x_{i,1} + ... + \beta_p x_{i,p}))^2 \\ &= \arg\min_{\bf \beta} \sum_{i=1}^{n} (y_i-\hat{y_i})^2 \tag{1} \end{aligned}$
OLS+正则项
$\begin{array}{l} \hat{\beta}_{\mathbf{L} 1}=\arg \min _{\beta}\left(\sum_{i=1}^{n}\left(y_{i}-\left(\beta_{0}+\beta_{1} x_{i, 1}+\ldots+\beta_{p} x_{i, p}\right)\right)^{2}+\lambda \sum_{j=0}^{p}\left|\beta_{j}\right|\right) \\ \hat{\beta}_{\mathbf{L} 2}=\arg \min _{\beta}\left(\sum_{i=1}^{n}\left(y_{i}-\left(\beta_{0}+\beta_{1} x_{i, 1}+\ldots+\beta_{p} x_{i, p}\right)\right)^{2}+\lambda \sum_{j=0}^{p}\left|\beta_{j}\right|^{2}\right) \end{array}$

解决什么问题

当我看到《Pattern Recognition and Machine Learning》这本书中L2画个圆形，L1画菱形的时候，深深感到作者的newbility，深深把握住了L1和L2，作者就是个学神，然而神就在天上，说了几句简短不那么平易近人的话，得需要我这个贞人与神沟通。我通过宇宙树，这个用来攀爬天梯的树直达上天与学神交流，将L1和L2的道理转达世人。
学神的图
在这里插入图片描述
写代码画图
$\hat \theta_{lasso} = argmin_{\theta \in \mathbb{R}^n} \sum_{i=1}^m (y_i - \mathbf{x_i}^T \theta)^2 + \lambda \sum_{j=1}^n | \theta_j|$

$\hat \theta_{ridge} = argmin_{\theta \in \mathbb{R}^n} \sum_{i=1}^m (y_i - \mathbf{x_i}^T \theta)^2 + \lambda \sum_{j=1}^n \theta_j^2$
在这里插入图片描述
$\lambda$ 变化过程
$\lambda=0$ 没有正则项，然后 $\lambda$ 逐渐变大的情况
overfitting -》generalization -》undefitting

L2正则化是防止模型过拟合的一种方法，是L2正则化是对于大数值的权重进行严厉惩罚，鼓励较小值。
在这里插入图片描述
不好的拟合（过拟合了）

正好的拟合

此时倾向于简单的模型，而不是复杂的模型。

在这里插入图片描述

L1为什么会用在模型压缩上
目的让不重要的参数变成0，然后抛弃他们。
看L1的梯度
在这里插入图片描述
看绝对值的导数
$|x|^{\prime}=\frac{1}{2 \sqrt{x^{2}}} \cdot 2 x=\frac{x}{\sqrt{x^{2}}}=\frac{x}{|x|}$
分三种情况
$\begin{array}{l} \text { When } \mathrm{X}>1, \text { derivative } =1 \\ \text { When } \mathrm{X}=0, \text { derivative } =\text { undefined } \\ \text { When } \mathrm{X}<1, \text { derivative } =-1 \end{array}$
$|x|^{\prime}=\frac{1}{2 \sqrt{x^{2}}} \cdot 2 x=\frac{x}{\sqrt{x^{2}}}=\frac{x}{|x|}$
L1的梯度另一种写法是
$\begin{array}{c} L=L+\lambda \sum_{i=1}^{n}\left|w_{i}\right| \\ \frac{\partial L}{\partial w_{i}}=\frac{\partial L}{\partial w_{i}}+\lambda \operatorname{sign}\left(w_{i}\right) \\ w_{i}=w_{i}-\eta \frac{\partial L}{\partial w_{i}}-\eta \lambda \operatorname{sign}\left(w_{i}\right) \end{array}$
主要看参数更新过程，提供多种写法找个容易看的
$\begin{aligned} w_{ij}^{(r)} \leftarrow w_{ij}^{(r)} - {\eta \lambda}\; sgn(w_{ij}^{(r)}) - {\eta}\; \frac{\partial \mathcal L}{\partial w_{ij}^{(r)}} \end{aligned}$
或者

$w_{i}=w_{i}-\eta \frac{\partial L}{\partial w_{i}}-\eta \lambda \operatorname{sign}\left(w_{i}\right)$
或者
$\begin{aligned} w_{\text {new }} &=w-\eta \frac{\partial L_{1}}{\partial w} \\ &=w-\eta \cdot\left[2 x(w x+b-y)+\lambda \frac{d|w|}{d w}\right] \\ &=\left\{\begin{array}{l} w-\eta \cdot[2 x(w x+b-y)+\lambda] \quad w>0 \\ w-\eta \cdot[2 x(w x+b-y)-\lambda] & w<0 \end{array}\right. \end{aligned}$
或者
$w_i\to w'_i \overset{\text{def}}{=} w_i - \eta\frac{\partial L}{\partial w_i} - \eta\frac{\gamma\ell_1}{n}\text{sgn}(w_i).$