一文读懂范数

最新推荐文章于 2024-08-24 04:07:39 发布

MyObject-C

最新推荐文章于 2024-08-24 04:07:39 发布

阅读量5.2k

点赞数 7

分类专栏：人工智能

原文链接：https://www.jianshu.com/p/ab49185ab270

版权

人工智能专栏收录该内容

9 篇文章 4 订阅

订阅专栏

什么是范数？

范数，是具有 “长度” 概念的函数。在线性代数、泛函分析及相关的数学领域，范数是一个函数，是矢量空间内的所有矢量赋予非零的正长度或大小。

在数学上，范数包括向量范数和矩阵范数。
向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是，对应向量范数，向量空间中的向量都是有大小的，这个大小如何度量，就是用范数来度量的，不同的范数都可以来度量这个大小，就好比米和尺都可以来度量远近一样；对于矩阵范数，学过线性代数，我们知道，通过运算 AX=B，可以将向量 X 变化为 B，矩阵范数就是来度量这个变化大小的。

向量的范数可以简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

向量的范数定义：向量的范数是一个函数 ||x||, 满足非负性 ||x|| >= 0，齐次性 ||cx|| = |c| ||x|| ，三角不等式 ||x+y|| <= ||x|| + ||y||。

为什么要引入范数？

我们都知道，函数与几何图形往往是有对应的关系，这个很好想象，特别是在三维以下的空间内，函数是几何图像的数学概括，而几何图像是函数的高度形象化。
但当函数与几何超出三维空间时，就难以获得较好的想象，于是就有了映射的概念，进而引入范数的概念。
当我们有了范数的概念的后，我们就可以引出两个向量的距离的定义，这个向量可以是任意维数的。通过距离的定义，进而我们可以讨论逼近程度，从而讨论收敛性、求极限。

在机器学习中的应用

如上所述有了范数的概念引出两个向量的距离的定义从而讨论收敛性、求极限

L1 范数和 L2 范数，用于机器学习的 L1 正则化、L2 正则化。对于线性回归模型，使用 L1 正则化的模型建叫做 Lasso 回归，使用 L2 正则化的模型叫做 Ridge 回归（岭回归）。

其作用是：

L1 正则化是指权值向量 w 中各个元素的绝对值之和，可以产生稀疏权值矩阵（稀疏矩阵指的是很多元素为 0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是 0. ），即产生一个稀疏模型，可以用于特征选择；

L2 正则化是指权值向量 w 中各个元素的平方和然后再求平方根，可以防止模型过拟合（overfitting）；一定程度上，L1 也可以防止过拟合。

至于为什么 L1 正则化能增加稀疏性，L2 正则化能防止过拟合，原理可查看参考资料。

常用的向量的范数：

都有下标，对应L几范数；

L1 范数: ||x|| 为 x 向量各个元素绝对值之和。

L2 范数: $||x||_{2}$ 为 x 向量各个元素平方和的 1/2 次方，L2 范数又称 Euclidean 范数或者 Frobenius 范数

Lp 范数: ||x|| 为 x 向量各个元素绝对值 p 次方和的 1/p 次方

L∞范数: ||x|| 为 x 向量各个元素绝对值最大那个元素的绝对值

范数计算：

一、向量的范数
首先定义一个向量为：a=[-5，6，8, -10]

1.1 向量的1范数
向量的1范数即：向量的各个元素的绝对值之和，上述向量a的1范数结果就是：29，MATLAB代码实现为：norm（a，1）；

1.2 向量的2范数
向量的2范数即：向量的每个元素的平方和再开平方根，上述a的2范数结果就是：15，MATLAB代码实现为：norm（a，2）；

1.3 向量的无穷范数
1.向量的负无穷范数即：向量的所有元素的绝对值中最小的：上述向量a的负无穷范数结果就是：5，MATLAB代码实现为：norm（a，-inf）；
2..向量的正无穷范数即：向量的所有元素的绝对值中最大的：上述向量a的负无穷范数结果就是：10，MATLAB代码实现为：norm（a，inf）；

二、矩阵的范数
首先我们将介绍数学中矩阵的范数的情况，也就是无论哪个学科都统一的一种规定。。。
例如矩阵A = [ -1 2 -3；
4 -6 6]

2.1 矩阵的1范数
矩阵的1范数即：矩阵的每一列上的元素绝对值先求和，再从中取个最大的，（列和最大），上述矩阵A的1范数先得到[5,8,9]，再取最大的最终结果就是：9，MATLAB代码实现为：norm（A，1）；

2.2 矩阵的2范数
矩阵的2范数即：矩阵ATAATA的最大特征值开平方根，上述矩阵A的2范数得到的最终结果是：10.0623，MATLAB代码实现为：norm（A，2）；

2.3 矩阵的无穷范数
矩阵的1范数即：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（行和最大），上述矩阵A的1范数先得到[6；16]，再取最大的最终结果就是：16，MATLAB代码实现为：norm（A，inf）；

接下来我们要介绍机器学习的低秩，稀疏等一些地方用到的范数，一般有核范数，L0范数，L1范数（有时很多人也叫1范数，这就让初学者很容易混淆），L21范数（有时也叫2范数），F范数。。。上述范数都是为了解决实际问题中的困难而提出的新的范数定义，不同于前面的矩阵范数。

2.4 矩阵的核范数
矩阵的核范数即：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287， MATLAB代码实现为：sum(svd(A))

2.5 矩阵的L0范数
矩阵的L0范数即：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏，上述矩阵A最终结果就是：6

2.6 矩阵的L1范数
矩阵的L1范数即：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以表示稀疏，上述矩阵A最终结果就是：22，MATLAB代码实现为：sum(sum(abs(A)))

2.7 矩阵的F范数
矩阵的F范数即：矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数，它的有点在它是一个凸函数，可以求导求解，易于计算，上述矩阵A最终结果就是：10.0995，MATLAB代码实现为：norm（A，‘fro’）

2.8 矩阵的L21范数
矩阵的L21范数即：矩阵先以每一列为单位，求每一列的F范数（也可认为是向量的2范数），然后再将得到的结果求L1范数（也可认为是向量的1范数），很容易看出它是介于L1和L2之间的一种范数，上述矩阵A最终结果就是：17.1559，MATLAB代码实现为： norm(A(:,1),2) + norm(A(:,2),2) + norm(A(:,3),2)