范数(Norm) 是数学中衡量向量大小的一个工具。它用于计算向量的长度或大小,是向量空间中的一种度量方式。在机器学习和神经网络中,范数常用于正则化,以防止模型过拟合,并用于优化过程中评估梯度。
常见范数类型:
- L1 范数(曼哈顿范数 / 稀疏范数)
- L2 范数(欧几里得范数)
- L∞ 范数(最大范数)
1. L1 范数
L1 范数是向量中每个元素的绝对值之和。
公式:
∣
∣
x
∣
∣
1
=
∑
i
=
1
n
∣
x
i
∣
||\mathbf{x}||_1 = \sum_{i=1}^{n} |x_i|
∣∣x∣∣1=i=1∑n∣xi∣
其中,
x
i
x_i
xi 是向量
x
\mathbf{x}
x 的第
i
i
i 个分量。
计算示例:
给定向量
x
=
[
3
,
−
4
,
1
]
\mathbf{x} = [3, -4, 1]
x=[3,−4,1]:
∣
∣
x
∣
∣
1
=
∣
3
∣
+
∣
−
4
∣
+
∣
1
∣
=
3
+
4
+
1
=
8
||\mathbf{x}||_1 = |3| + |-4| + |1| = 3 + 4 + 1 = 8
∣∣x∣∣1=∣3∣+∣−4∣+∣1∣=3+4+1=8
2. L2 范数
L2 范数是向量中每个元素平方和的平方根,通常用于计算向量的欧几里得距离。
公式:
∣
∣
x
∣
∣
2
=
∑
i
=
1
n
x
i
2
||\mathbf{x}||_2 = \sqrt{\sum_{i=1}^{n} x_i^2}
∣∣x∣∣2=i=1∑nxi2
计算示例:
给定向量
x
=
[
3
,
−
4
,
1
]
\mathbf{x} = [3, -4, 1]
x=[3,−4,1]:
∣
∣
x
∣
∣
2
=
3
2
+
(
−
4
)
2
+
1
2
=
9
+
16
+
1
=
26
≈
5.1
||\mathbf{x}||_2 = \sqrt{3^2 + (-4)^2 + 1^2} = \sqrt{9 + 16 + 1} = \sqrt{26} \approx 5.1
∣∣x∣∣2=32+(−4)2+12=9+16+1=26≈5.1
3. L∞ 范数(最大范数)
L∞ 范数是向量中元素绝对值的最大值。
公式:
∣
∣
x
∣
∣
∞
=
max
(
∣
x
1
∣
,
∣
x
2
∣
,
…
,
∣
x
n
∣
)
||\mathbf{x}||_\infty = \max(|x_1|, |x_2|, \dots, |x_n|)
∣∣x∣∣∞=max(∣x1∣,∣x2∣,…,∣xn∣)
计算示例:
给定向量
x
=
[
3
,
−
4
,
1
]
\mathbf{x} = [3, -4, 1]
x=[3,−4,1]:
∣
∣
x
∣
∣
∞
=
max
(
∣
3
∣
,
∣
−
4
∣
,
∣
1
∣
)
=
4
||\mathbf{x}||_\infty = \max(|3|, |-4|, |1|) = 4
∣∣x∣∣∞=max(∣3∣,∣−4∣,∣1∣)=4
范数的意义和用途:
- L1 范数:常用于稀疏模型的正则化(如 Lasso 回归),有助于特征选择,因为它倾向于使某些特征的系数变为零,从而形成稀疏解。
- L2 范数:用于欧几里得距离和正则化(如 Ridge 回归、神经网络中的权重衰减),通过惩罚大的权重来防止过拟合。
- L∞ 范数:有时用于优化问题,特别是在涉及最大误差或最大距离时。
总结:
- L1 范数 计算向量元素的绝对值之和,强调稀疏性。
- L2 范数 计算向量的欧几里得长度,强调整体距离。
- L∞ 范数 取向量元素的最大绝对值,强调极值。
这些范数广泛应用于机器学习中的正则化方法以及优化问题中,用于控制模型的复杂度和防止过拟合。