0范数、1范数、2范数

最新推荐文章于 2024-08-24 04:07:39 发布

D_JQ

最新推荐文章于 2024-08-24 04:07:39 发布

阅读量3.7k

点赞数 1

分类专栏：数理基础知识文章标签：算法人工智能

本文链接：https://blog.csdn.net/dumao0620/article/details/128183557

版权

数理基础知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

系列文章目录

参考文献

[1]
[2]
[3]
[4]
[5]
[6]
[7]

文章目录

系列文章目录
参考文献
前言
一、向量范数
二、矩阵范数

前言

列举常用的向量范数和矩阵范数的定义，秃然爱上coding
范数引入是为了防止过拟合，或者是解可逆。凌空，如果从机器学习的角度，可能会更好理解。

从基本的最小二乘线性模型开始，初始，最小二乘的loss（需要优化的目标函数）如下，
$E_D(w)=\frac{1}{2}\sum_{n=1}^N{t_n-w^T\Phi(X_n)}^2$
其中，tn是目标变量，xn是观测变量（自变量）， $\Phi$ 是基函数（后期推导与核化无关），是w参数，解为，
$W_{ML}=(\Phi^T\Phi)^{-1}\Phi^Tt$

上述公式不好求解，因为其实矩阵求逆的病态问题，因此求其近似解。用SGD（梯度下降法）求近似解，或者加入正则项（L2），实际应用中，加入2范数的正则项可以得到闭式解，在实际应用中要比SGD快。因此，加入L2之后的loss，
$\frac{1}{2}\sum_{n=1}^N\{{t_n-W^T\Phi(x_n)}\}^2+\frac{\lambda}{2}W^TW$

闭式解为，

$W=(\lambda+\Phi^T\Phi)^{-1}\Phi^Tt$

只要上述 $\lambda\neq0$ 总是有解，此时，loss为，
$\frac{1}{2}\sum_{n=1}^N\{{t_n-W^T\Phi(x_n)}\}^2+\frac{\lambda}{2}\sum_{j=1}^M\vert w_j\vert^q$
不同的范数曲线如下，

在这里插入图片描述

（图来源于参考书PRML）

上图中，可以明显看到一个趋势，即q越小，曲线越贴近坐标轴，q越大，曲线越远离坐标轴，并且棱角越明显。那么 q=0 和 q=oo 时极限情况如何
在这里插入图片描述
就是十字架和正方形。除了图形上的直观形象，在数学公式的推导中，q=0 和 q=oo 时两种极限的行为可以简记为非零元的个数和最大项。那么他们用在机器学习里有什么区别呢？

以1范数和2范数为例：
在这里插入图片描述

上图中，蓝色的圆圈表示原问题可能的解范围，橘色的表示正则项可能的解范围。而整个目标函数（原问题+正则项）有解当且仅当两个解范围相切。从上图可以很容易地看出，由于2范数解范围是圆，所以相切的点有很大可能不在坐标轴上（感谢评论区＠临熙指出表述错误），而由于1范数是菱形（顶点是凸出来的），其相切的点更可能在坐标轴上，而坐标轴上的点有一个特点，其只有一个坐标分量不为零，其他坐标分量为零，即是稀疏的。所以有如下结论，1范数可以导致稀疏解，2范数导致稠密解。那么为什么不用0范数呢，理论上它是求稀疏解最好的规范项了。然而在机器学习中，特征的维度往往很大，解0范数又是NP-hard问题，所以在实际中不可行。但是用1范数解是可行的，并且也可以得到稀疏解，所以实际稀疏模型中用1范数约束。至此，我们总结一下，在机器学习中，以0范数和1范数作为正则项，可以求得稀疏解，但是0范数的求解是NP-hard问题; 以2范数作为正则项可以得到稠密解，并且由于其良好的性质，其解的定义很好，往往可以得到闭式解，所以用的很多。另外，从距离的角度说一下范数。1范数对应街区距离，2范数对应大家熟知的欧式距离，无穷范数对应棋盘距离（切比雪夫距离）。
在这里插入图片描述