L0,L1,L2范数的含义及其在机器学习中的应用

最新推荐文章于 2024-05-13 12:52:03 发布

Cccccent

最新推荐文章于 2024-05-13 12:52:03 发布

阅读量1.2k

点赞数

文章标签：机器学习正则化神经网络深度学习

本文链接：https://blog.csdn.net/weixin_43133628/article/details/104466663

版权

范数定义：

（1）范数(norm)是数学中的一种基本概念。在泛函分析中，它定义在赋范线性空间中，并满足一定的条件，即①非负性；②齐次性；③三角不等式。它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小。
（2）

L0范数：
范数(norm)是数学中的一种基本概念。在泛函分析中，它定义在赋范线性空间中，并满足一定的条件，即①非负性；②齐次性；③三角不等式。它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小。
L1范数：向量中每个元素绝对值的和
$||x||_1 = \sum_{i = 1}^{N}|x|$
L2范数：向量元素绝对值的平方和再开平方

$||x||_2 = \sqrt{\sum^{N}_{i=1}x^2_i}$

当模型训练中出现过拟合现象，即训练集误差在下降，测试集误差在上升时，我们可以采用L2正则化的方法解决此问题。此方法也别称为权重衰减。在回归模型中，也被称为岭回归。
L2正则化的实现方法：

设损失函数

$l_0 + \frac{\lambda}{2}\sum_\omega \omega^2$

其中 $l_0$ 表示没有正则化时的损失函数。对它求ω的偏导：

$\frac{\partial l}{\partial \omega } = \frac{\partial l_0}{\partial \omega} + \lambda \omega$

再对ω进行更新：

$\omega = \omega - \eta \frac{\partial l}{\partial \omega} = (1-\eta\lambda)\omega - \eta\frac{\partial l_0}{\partial \omega}$

没有正则化的参数会更新为

$\omega_0 = \omega -\eta\frac{\partial l_0}{\partial \omega}$
而L2 正则化使用了一个乘数 $(1-\eta\lambda)$ 调整权重，因此权重会不断衰减，并且在权重较大时衰减的快，较小时衰减得慢。