机器学习中常用范数与距离

最新推荐文章于 2024-03-21 14:11:26 发布

hfutdog

最新推荐文章于 2024-03-21 14:11:26 发布

阅读量1.8k

点赞数 3

分类专栏：机器学习文章标签：范数距离机器学习

本文链接：https://blog.csdn.net/hfutdog/article/details/91351324

版权

本文介绍了机器学习中常见的范数和距离概念，包括向量范数、矩阵范数及其不同类型的范数，如1范数、2范数、∞范数等。同时，详细阐述了距离的概念，如曼哈顿距离、欧氏距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦距离、相关距离、汉明距离和杰卡德类似系数。这些范数和距离在模型优化、特征选择和相似性度量等方面具有重要作用。

摘要由CSDN通过智能技术生成

前言

在机器学习中经常会涉及到范数和距离的概念，有时候优化的目标函数就是常用范数和距离的变化。关于范数和距离其实已经有很多人写过文章了，我之所以还要再写一遍，是因为读别人的文章我老是记不住，干脆好记性不如烂键盘，自己敲一遍吧。

范数

向量范数

向量范数表示向量空间中向量的大小。
将 $n$ 维实空间 $R^n$ 中的向量 $\mathbf X = (x_1, x_2, ..., x_n)^T$ 的范数记作 $\Vert \mathbf X \Vert$ ，该范数是一个实数，且满足以下三条性质：
(1) 非负性： $\Vert \mathbf X \Vert \geq 0$ ，当且仅当 $\mathbf X = \mathbf 0$ 时 $\Vert \mathbf X \Vert = 0$ ；
(2) 齐次性：对任意实数 $\lambda$ ， $\Vert \lambda \mathbf X\Vert$ = $|\lambda| \Vert \mathbf X \Vert$ ；
(3) 三角不等式：对任意向量 $\mathbf Y \in R^n$ ， $\Vert \mathbf X + \mathbf Y \Vert \leq \Vert \mathbf X \Vert + \Vert \mathbf Y \Vert$ 。

1范数
${\Vert \mathbf X \Vert}_1 = \sum_{i=1}^n {|x_i|} = |x_1| + |x_2| + ... +|x_n|$
2范数
${\Vert \mathbf X \Vert}_2 = \sqrt {\sum_{i=1}^n {x_i}^2} = \sqrt { {x_1}^2 + {x_2}^2 + ... +{x_n}^2}$
$\infty范数$
${\Vert \mathbf X \Vert}_\infty = \max_{1\leq i \leq n} |x_i|$
$p$ 范数
${\Vert \mathbf X \Vert}_p = \sqrt[p] {\sum_{i=1}^n |x_i|^p}$
其中，前三种范数都是 $p$ 范数的特殊情况，或者可以说 $p$ 范数不是一个单纯的范数，而是一组范数的表示。
需要注意的是，当 $\geq 1$ 时，各个范数是满足三角不等式的，而当 $\leq p \lt 1$ 时，范数是不满足三角不等式的，此时的范数只是一种概念表示。
比如0范数用 $p$ 范数的计算公式表示为如下形式：
${\Vert \mathbf X \Vert}_0 = \sqrt[0] {\sum_{i=1}^n |x_i|^0}$
这样表示的问题在于，当 $x_i = 0$ 时， $0^0$ 是没有意义的，同样开零次方也是没有意义的。一般我们实际使用的0范数指向量中的非零元素个数。
另外，对于 $\infty$ 范数，它实际是通过以下公式计算得来的：
${\Vert \mathbf X \Vert}_\infty = \lim_{p \rightarrow \infty} {\Vert \mathbf X \Vert}_p$
在实际应用中，1范数可以实现特征的稀疏，去掉一些无用信息；2范数通常用作目标函数的正则化项，防止过拟合，提高模型的泛化能力。1范数和2范数可以度量两个向量之间的差异，而 $\infty$ 范数用来度量向量元素的最大值。

矩阵范数

矩阵范数表示矩阵变换引起的变化大小。
若有 $\times n$ 的矩阵 $\mathbf A$ （ $\mathbf A \in R^{n \times n}$ ）以及 $n$ 维实空间 $R^n$ 中的向量 $\mathbf X$ ，称
$\Vert \mathbf A \Vert = \max_{\mathbf X \in R^n, {\Vert \mathbf X \Vert} = \not 0} \frac{\Vert \mathbf {AX} \Vert}{\Vert \mathbf X \Vert} = \max_{\Vert \mathbf X \Vert = 1, \mathbf X \in R^n} \Vert \mathbf {AX} \Vert$