基础知识 - 范数

范数

我们不能简单地按照元素大小比较不同的向量或者矩阵,所以给出了一种长度计量单位,也就是从向量空间R^{n} 到实数域R 的非负函数 \left \| v \right \| 为范数。意思就是把一堆数转化成一个数进行比较。

向量范数

满足条件:

1. 正定:对于所有的向量 v\in \mathbb{R}^{n} ,他们的范数 \left \| v \right \|\geqslant 0 ,并且只有 v=0 时才有 \left \| v \right \|= 0

2. 齐次:对于所有的向量 v\in \mathbb{R}^{n} 和 a\in \mathbb{R} , 存在 \left \| av \right \|=\left | a \right |\left \| v \right \|

3.三角不等式: 对于所有的向量 v\in \mathbb{R}^{n} 和 w\in \mathbb{R}^{n}, 存在 \left \| v+w \right \|\leqslant \left \| v \right \|+\left \| w \right \|

常用的向量范数为 lp 范数(p\geqslant 1)

其中p = 1,2,\infty 的情形最重要,分别记为 \left \| \cdot \right \|_{1}\left \| \cdot \right \|_{2}\left \| \cdot \right \|_{\infty }.在不引起歧义的情况下,我们有时省略 l2 范数的角标,记为 \left \| \cdot \right \|

\left \| \cdot \right \|_{1}  \large L1 范数是指向量中各个元素绝对值之和.

\left \| \cdot \right \|_{2}  \large L2范数是指向量各元素的平方和然后求平方根.

正定矩阵 A诱导的范数:\left \| x \right \|_{A}= \sqrt{x^{T}Ax}

矩阵范数

和向量范数类似,矩阵范数是定义在矩阵空间上的非负函数,并且满足正定性、齐次性和三角不等式.向量的 lp 范数可以比较容易地推广到矩阵的 lp 范数。

 当 p=1 时,矩阵 A\in \mathbb{R}^{m*n}l1 矩阵范数:

\left \| A \right \|_{1}=\sum_{i=1}^{m}\sum_{j=1}^{n}\left | a_{ij} \right |

 也就是所有的数加和,即 \left \| A \right \|_{1} 为 A 中所有元素绝对值的和。

当 p = 2 时,此时得到的是矩阵的 Frobenius 范数(下称 F 范数),记为 \left \| A \right \|_{F} ,它可以看成是向量 l2 范数的推广(矩阵的迹(tr)等于矩阵主对角线元素之和,也等于矩阵的全部特征值之和。):

\left \| A \right \|_{F}=\sqrt{Tr(AA^{T})}=\sqrt{\sum_{i,j}^{}(a_{ij})^2}

即所有元素平方和开根号。

矩阵 p 范数总结: A=(a_{i,j})_{m*n}
\left \| A \right \|_{M1}\sum_{i,j}^{}\left | a_{ij} \right |全部元素模和
\left \| A \right \|_{M2}\sqrt{\sum_{i,j}^{}\left | a_{ij} \right |^{2}}全部元素模和平方开根号
\left \| A \right \|_{M\infty }max\left \{ \left | a_{ij} \right | \right \}模长最大

算子范数

定义的矩阵范数 为从属向量范数 的矩阵范数,在计算中经常出现矩阵和向量的乘积,因此希望矩阵范数和向量范数间有某种协调性。

定义如下:

数值最优化的过程中直接运用即可,最常用的经常用到的是矩阵的2范数。

算子 p 范数总结: A=(a_{i,j})_{s*n}
\left \| A \right \|_{1}max(_{1\leqslant j\leqslant n})\left \{ \sum_{i=1}^{s}\left | a_{ij} \right | \right \}列模长和取最大
\left \| A \right \|_{2}\sqrt{\rho (A^{H}A)}谱范数,A^{H}A的最大的特征值
\left \| A \right \|_{\infty }max(_{1\leqslant i\leqslant s})\left \{ \sum_{j=1}^{n}\left | a_{ij} \right | \right \}行模长和取最大

 关于算子2范数 \left \| A \right \|_{2} 其中的 \rho 函数,意为求解特征值的最大值\large \rho (A)=max\left \{ \lambda _{i} \right \},也就是矩阵A谱半径(最大特征值)。

 定理:矩阵A谱半径(最大特征值)  小于  矩阵A任意矩阵范数

关于L1,L2范数拓展

\large L1 正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择

\large L2 正则化可以防止模型过拟合

为什么 \large L1 范数可以产生稀疏矩阵

目标是把 \omega 的解限制在黄色区域内,假设参数只有两个:\omega 1,\omega 2

左图为  \large L2 范数  右图为  \large L1范数

右图中的 \large L1范数公式为:

因为 \left \| x \right \|_{1}\leqslant C ,所以根据\large L1公式:\left \| x \right \|_{1}= \left | \omega 1 \right |+\left | \omega 2 \right |\leqslant C

所以呈现的是一个菱形,如图就把解定在了右图中的 \omega ^{*}处,在此处 \omega 1=0,所以说明\large L1具有稀疏性。

右图中的 \large L2 范数公式为:

因为\left \| x \right \|_{2}\leqslant C, 所以根据L2 公式:\left \| x \right \|_{2}= (\left | \omega 1 \right |^{2}+\left | \omega 2 \right |^{2})^{\frac{1}{2}}\leqslant C

所以呈现的是一个圆形,如图就把解定在了左图中的 \omega ^{*}处,一般不在边界,所以说明 \omega 1,\omega 2 一般都不是 0,所以说不是零,就防止了过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值