参考内容:
(1)https://www.cnblogs.com/lhfhaifeng/p/10671349.html
(2)https://www.jianshu.com/p/4bad38fe07e6
(3)百度百科
范数定义:
(1)范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。
(2)
-
L0范数:
范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。 -
L1范数:向量中每个元素绝对值的和
∣ ∣ x ∣ ∣ 1 = ∑ i = 1 N ∣ x ∣ ||x||_1 = \sum_{i = 1}^{N}|x| ∣∣x∣∣1=i=1∑N∣x∣ -
L2范数:向量元素绝对值的平方和再开平方
∣ ∣ x ∣ ∣ 2 = ∑ i = 1 N x i 2 ||x||_2 = \sqrt{\sum^{N}_{i=1}x^2_i} ∣∣x∣∣2=i=1∑Nxi2
范数的应用
应用一:约束模型的特性
1.1 L2正则化
-
当模型训练中出现过拟合现象,即训练集误差在下降,测试集误差在上升时,我们可以采用L2正则化的方法解决此问题。此方法也别称为权重衰减。在回归模型中,也被称为岭回归。
-
L2正则化的实现方法:
设损失函数
l = l 0 + λ 2 ∑ ω ω 2 l = l_0 + \frac{\lambda}{2}\sum_\omega \omega^2 l=l0+2λω∑ω2
其中 l 0 l_0 l0表示没有正则化时的损失函数。对它求ω的偏导:
∂ l ∂ ω = ∂ l 0 ∂ ω + λ ω \frac{\partial l}{\partial \omega } = \frac{\partial l_0}{\partial \omega} + \lambda \omega ∂ω∂l=∂ω∂l0+λω
再对ω进行更新:
ω = ω − η ∂ l ∂ ω = ( 1 − η λ ) ω − η ∂ l 0 ∂ ω \omega = \omega - \eta \frac{\partial l}{\partial \omega} = (1-\eta\lambda)\omega - \eta\frac{\partial l_0}{\partial \omega} ω=ω−η∂ω∂l=(1−ηλ)ω−η∂ω∂l0
没有正则化的参数会更新为
ω 0 = ω − η ∂ l 0 ∂ ω \omega_0 = \omega -\eta\frac{\partial l_0}{\partial \omega} ω0=ω−η∂ω∂l0
而L2 正则化使用了一个乘数 ( 1 − η λ ) (1-\eta\lambda) (1−ηλ)调整权重,因此权重会不断衰减,并且在权重较大时衰减的快,较小时衰减得慢。