基础知识 - 范数

咖喱飞饼手抓饭

已于 2022-04-17 19:48:47 修改

阅读量4.2k

点赞数 3

分类专栏：凸优化文章标签：图像处理算法

于 2022-04-01 16:06:42 首次发布

本文链接：https://blog.csdn.net/qq_37668179/article/details/123876110

版权

凸优化专栏收录该内容

6 篇文章

订阅专栏

范数

我们不能简单地按照元素大小比较不同的向量或者矩阵，所以给出了一种长度计量单位，也就是从向量空间 $R^{n}$ 到实数域 $R$ 的非负函数 $\left \| v \right \|$ 为范数。意思就是把一堆数转化成一个数进行比较。

向量范数

满足条件：

1. 正定：对于所有的向量 $v\in \mathbb{R}^{n}$ ,他们的范数 $\left \| v \right \|\geqslant 0$ ,并且只有 $v=0$ 时才有 $\left \| v \right \|= 0$

2. 齐次：对于所有的向量 $v\in \mathbb{R}^{n}$ 和 $a\in \mathbb{R}$ , 存在 $\left \| av \right \|=\left | a \right |\left \| v \right \|$

3.三角不等式：对于所有的向量 $v\in \mathbb{R}^{n}$ 和 $w\in \mathbb{R}^{n}$ , 存在 $\left \| v+w \right \|\leqslant \left \| v \right \|+\left \| w \right \|$

常用的向量范数为 $lp$ 范数 $(p\geqslant 1)$ ：

其中 $p = 1,2,\infty$ 的情形最重要，分别记为 $\left \| \cdot \right \|_{1}$ , $\left \| \cdot \right \|_{2}$ 和 $\left \| \cdot \right \|_{\infty }$ ．在不引起歧义的情况下，我们有时省略 $l2$ 范数的角标，记为 $\left \| \cdot \right \|$

$\left \| \cdot \right \|_{1}$ $\large L1$ 范数是指向量中各个元素绝对值之和.

$\left \| \cdot \right \|_{2}$ $\large L2$ 范数是指向量各元素的平方和然后求平方根.

正定矩阵 A诱导的范数： $\left \| x \right \|_{A}= \sqrt{x^{T}Ax}$

矩阵范数

和向量范数类似，矩阵范数是定义在矩阵空间上的非负函数，并且满足正定性、齐次性和三角不等式．向量的 $lp$ 范数可以比较容易地推广到矩阵的 $lp$ 范数。

当 $p=1$ 时，矩阵 $A\in \mathbb{R}^{m*n}$ 的 $l1$ 矩阵范数：

$\left \| A \right \|_{1}=\sum_{i=1}^{m}\sum_{j=1}^{n}\left | a_{ij} \right |$

也就是所有的数加和，即 $\left \| A \right \|_{1}$ 为 $A$ 中所有元素绝对值的和。

当 p = 2 时，此时得到的是矩阵的 $Frobenius$ 范数（下称 $F$ 范数）,记为 $\left \| A \right \|_{F}$ ,它可以看成是向量 $l2$ 范数的推广（矩阵的迹(tr)等于矩阵主对角线元素之和，也等于矩阵的全部特征值之和。）：

$\left \| A \right \|_{F}=\sqrt{Tr(AA^{T})}=\sqrt{\sum_{i,j}^{}(a_{ij})^2}$

即所有元素平方和开根号。

矩阵 $p$ 范数总结： $A=(a_{i,j})_{m*n}$
$\left \\| A \right \\|_{M1}$	$\sum_{i,j}^{}\left \| a_{ij} \right \|$	全部元素模和
$\left \\| A \right \\|_{M2}$	$\sqrt{\sum_{i,j}^{}\left \| a_{ij} \right \|^{2}}$	全部元素模和平方开根号
$\left \\| A \right \\|_{M\infty }$	$max\left \{ \left \| a_{ij} \right \| \right \}$	模长最大

算子范数

定义的矩阵范数为从属向量范数的矩阵范数，在计算中经常出现矩阵和向量的乘积，因此希望矩阵范数和向量范数间有某种协调性。

定义如下：

数值最优化的过程中直接运用即可，最常用的经常用到的是矩阵的2范数。

算子 $p$ 范数总结： $A=(a_{i,j})_{s*n}$
$\left \\| A \right \\|_{1}$	$max(_{1\leqslant j\leqslant n})\left \{ \sum_{i=1}^{s}\left \| a_{ij} \right \| \right \}$	列模长和取最大
$\left \\| A \right \\|_{2}$	$\sqrt{\rho (A^{H}A)}$	谱范数， $A^{H}A$ 的最大的特征值
$\left \\| A \right \\|_{\infty }$	$max(_{1\leqslant i\leqslant s})\left \{ \sum_{j=1}^{n}\left \| a_{ij} \right \| \right \}$	行模长和取最大

关于算子2范数 $\left \| A \right \|_{2}$ 其中的 $\rho$ 函数，意为求解特征值的最大值： $\large \rho (A)=max\left \{ \lambda _{i} \right \}$ ，也就是矩阵 $A$ 的谱半径（最大特征值）。

定理：矩阵 $A$ 的谱半径（最大特征值）小于矩阵 $A$ 的任意矩阵范数。

关于L1，L2范数拓展

$\large L1$ 正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择

$\large L2$ 正则化可以防止模型过拟合

为什么 $\large L1$ 范数可以产生稀疏矩阵

目标是把 $\omega$ 的解限制在黄色区域内，假设参数只有两个： $\omega 1,\omega 2$

左图为 $\large L2$ 范数右图为 $\large L1$ 范数

右图中的 $\large L1$ 范数公式为：

因为 $\left \| x \right \|_{1}\leqslant C$ ，所以根据 $\large L1$ 公式： $\left \| x \right \|_{1}= \left | \omega 1 \right |+\left | \omega 2 \right |\leqslant C$

所以呈现的是一个菱形，如图就把解定在了右图中的 $\omega ^{*}$ 处，在此处 $\omega 1=0$ ，所以说明 $\large L1$ 具有稀疏性。

右图中的 $\large L2$ 范数公式为：

因为 $\left \| x \right \|_{2}\leqslant C$ ，所以根据 $L2$ 公式： $\left \| x \right \|_{2}= (\left | \omega 1 \right |^{2}+\left | \omega 2 \right |^{2})^{\frac{1}{2}}\leqslant C$

所以呈现的是一个圆形，如图就把解定在了左图中的 $\omega ^{*}$ 处，一般不在边界，所以说明 $\omega 1,\omega 2$ 一般都不是 $0$ ，所以说不是零，就防止了过拟合。

$\left \\| A \right \\|_{M1}$	$\sum_{i,j}^{}\left \| a_{ij} \right \|$	全部元素模和
$\left \\| A \right \\|_{M2}$	$\sqrt{\sum_{i,j}^{}\left \| a_{ij} \right \|^{2}}$	全部元素模和平方开根号
$\left \\| A \right \\|_{M\infty }$	$max\left \{ \left \| a_{ij} \right \| \right \}$	模长最大