矩阵理论| 基础:矩阵范数

矩阵范数

类似向量范数,矩阵范数需要满足以下条件:
∥ A ∥ ≥ 0 \Vert A\Vert\ge 0 A0 ∥ A ∥ = 0 \Vert A\Vert=0 A=0当且仅当 A = 0 A=0 A=0
∥ c A ∥ = ∣ c ∣ ⋅ ∥ A ∥ \Vert cA\Vert=\vert c\vert\cdot\Vert A\Vert cA=cA
∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \Vert A+B\Vert\le\Vert A\Vert+\Vert B\Vert A+BA+B

范数等价的概念:

  • 范数 ∥ ⋅ ∥ a \|\cdot\|_a a和范数 ∥ ⋅ ∥ b \|\cdot\|_b b等价    ⟺    \iff 存在 0 < m < M 0<m<M 0<m<M使 m ∥ A ∥ a < ∥ A ∥ b < M ∥ A ∥ a m\|A\|_a<\|A\|_b<M\|A\|_a mAa<Ab<MAa
  • 和向量范数一样,空间中任意两个矩阵范数均等价

另外,我们一般讨论的都是相容(自相容)的矩阵范数:

  • 自相容的范数,满足 ∥ A B ∥ ≤ ∥ A ∥ ⋅ ∥ B ∥ \Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert ABAB
  • 矩阵的 m 1 m_1 m1 m 2 m_2 m2范数是自相容的, m ∞ m_{\infty} m范数不相容

例如, A B = [ 1 1 1 1 ] [ 1 1 1 1 ] = [ 2 2 2 2 ] AB=\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}=\begin{bmatrix}2 & 2\\ 2 &2\end{bmatrix} AB=[1111][1111]=[2222],但 ∥ A B ∥ m ∞ = 2 > 1 = ∥ A ∥ m ∞ ⋅ ∥ B ∥ m ∞ \| AB\|_{m_\infty} =2>1=\Vert A\Vert_{m_\infty}\cdot\Vert B\Vert_{m_\infty} ABm=2>1=AmBm

m范数

从向量Lp范数推广,(将矩阵视为向量),可以直接得到矩阵范数 / m范数

  • m 1 m_1 m1范数: ∥ A ∥ m 1 = ∑ i ∑ j ∣ a i j ∣ {\left\| \bold A \right\|_{m_1}} = \sum_{i}\sum_{j}|a_{ij}| Am1=ijaij
  • m 2 m_2 m2范数/ Frobenius范数,: ∥ A ∥ m 2 = ∑ i ∑ j ∣ a i j ∣ 2 {\left\| \bold A \right\|_{m_2}} = \sqrt{\sum_{i}\sum_{j}|a_{ij}|^2} Am2=ijaij2
    等价计算式1: ∥ A ∥ F = t r a c e ( A H A ) \Vert \boldsymbol A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)} AF=trace(AHA)
    等价计算式2: ∥ A ∥ F = σ 1 2 + ⋯ + σ r 2 = ∑ i = 1 r σ i 2 {\left\| \boldsymbol A \right\|_F} = \sqrt {\sigma _1^2 + \cdots + \sigma _r^2}=\sqrt{\sum_{i=1}^r\sigma_i^2} AF=σ12++σr2 =i=1rσi2

关于 ∥ A ∥ F = ∑ i = 1 r σ i 2 {\left\| \boldsymbol A \right\|_F} =\sqrt{\sum_{i=1}^r\sigma_i^2} AF=i=1rσi2 的理解:

  • 理解①: A = U Σ V T \boldsymbol A = \boldsymbol {U\Sigma} {\boldsymbol V^T} A=UΣVT,而酉矩阵不改变Frobenius范数,故 ∥ A ∥ F = ∥ Σ ∥ F {\left\| \bold A \right\|_{F}}={\left\| \bold \Sigma \right\|_{F}} AF=ΣF,而 Σ \bold \Sigma Σ的m2范数正是 σ 1 2 + ⋯ + σ r 2 \sqrt {\sigma _1^2 + \cdots + \sigma _r^2} σ12++σr2
  • 理解②:由 ∥ A ∥ F = t r a c e ( A H A ) \Vert A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)} AF=trace(AHA) 可推出,因为 t r a c e ( A H A ) = λ 1 + . . . + λ n = σ 1 2 + ⋯ + σ r 2 \mathrm{trace}(A^{H}A)=\lambda_1+...+\lambda_n=\sigma _1^2 + \cdots + \sigma _r^2 trace(AHA)=λ1+...+λn=σ12++σr2(其中 λ \lambda λ A H A A^{H}A AHA的特征值, σ 1 ≥ ⋯ ≥ σ r > 0 = σ r + 1 = ⋯ = σ m i n { m , n } \sigma_1\ge\cdots\ge \sigma_r>0=\sigma_{r+1}=\cdots=\sigma_{min\{m,n\}} σ1σr>0=σr+1==σmin{m,n} A A A的奇异值)
  • m ∞ m_\infty m范数: ∥ A ∥ m ∞ = max ⁡ { ∣ a i j ∣ } {\left\| \bold A \right\|_{m_\infty} } = \max \{\left| {a_{ij}} \right|\} Am=max{aij}

实际上矩阵范数却不存在公认唯一的度量方式。
上述的矩阵范数,仅是将矩阵视为广义的向量,却忽略了矩阵的“线性变换”意义(矩阵具有移动向量空间的能力)

算子范数(诱导范数)

从向量范数出发,也可以矩阵的算子范数(operator norm),准确的说应该是 [从属于向量范数 ∥ ⋅ ∥ a \|\cdot\|_a a的算子范数]: ∥ A ∥ a = max ⁡ ∥ A x ∥ a ∥ x ∥ a = max ⁡ ∥ x ∥ a = 1 ∥ A x ∥ a {\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \max_{{{\left\| \bold x \right\|_a}}=1} {\left\| {\boldsymbol A\bold x} \right\|_a} Aa=maxxaAxa=xa=1maxAxa

理解:根据定义,算子范数就是将矩阵 A \boldsymbol A A视为一个线性变换,它作用于向量后使得向量伸缩变形,只要在所有向量中找出最大的“伸缩量”(大小的度量准则是某种向量范数),就得到了算子范数


另一方面,可以从“相容”的角度来理解算子范数:

一开始说过,自相容的矩阵范数满足 ∥ A B ∥ ≤ ∥ A ∥ ⋅ ∥ B ∥ \Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert ABAB
也可以推广,定义 [与向量范数 ∥ ⋅ ∥ a \|\cdot\|_a a相容的矩阵范数],它满足 ∥ A x ∥ a ≤ ∥ A ∥ ⋅ ∥ x ∥ a \Vert A\mathbf{x}\Vert_a\le\Vert A\Vert\cdot\Vert\mathbf{x}\Vert_a AxaAxa
x ≠ 0 \mathbf{x}\neq\mathbf{0} x=0,则有 ∥ A ∥ ≥ ∥ A x ∥ ∥ x ∥ \displaystyle\Vert A\Vert\ge\frac{\Vert A\mathbf{x}\Vert}{\Vert\mathbf{x}\Vert} AxAx

据此,我们定义 [从属于向量范数 ∥ ⋅ ∥ a \|\cdot\|_a a的算子范数]: ∥ A ∥ a = max ⁡ x ≠ 0 ∥ A x ∥ a ∥ x ∥ a \displaystyle\Vert A\Vert_a=\max_{\mathbf{x}\neq\mathbf{0}}\frac{\Vert A\mathbf{x}\Vert_a}{\Vert\mathbf{x}\Vert_a} Aa=x=0maxxaAxa

  • 实际上,给定一个向量范数 ∥ ⋅ ∥ a \|\cdot\|_a a必然存在与该向量范数向量范数 ∥ ⋅ ∥ a \|\cdot\|_a a相容的矩阵范数
  • 并且,在所有与 ∥ ⋅ ∥ a \|\cdot\|_a a相容的矩阵范数中,算子范数是其中最小的一个(从上式可以直接看出)
  • 另外,算子范数必然是自相容的矩阵范数(满足 ∥ A B ∥ a ≤ ∥ A ∥ a ∥ B ∥ a \|AB\|_a\le\|A\|_{a}\|B\|_a ABaAaBa

上面相当于用向量范数定义了矩阵范数
反过来同样的,可以从“相容”的角度出发,用矩阵范数定义向量范数:
给定一个自相容的矩阵范数 ∥ ⋅ ∥ m \|\cdot\|_{m} m,一定存在与之相容的向量范数 ∥ ⋅ ∥ \|\cdot\| (使得 ∥ A x ∥ ≤ ∥ A ∥ m ∥ x ∥ \|Ax\|\le\|A\|_{m}\|x\| AxAmx

最常用的算子范数

  • 谱范数 /算子2范数(从属于向量范数 ∥ x ∥ 2 {\left\| \bold x \right\|_2} x2的算子范数): ∥ A ∥ 2 = r ( A H A ) = σ 1 {\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1 A2=r(AHA) =σ1
    其中, r ( A ) r(\bold A) r(A)为矩阵 A \bold A A的谱半径,而 σ 1 \sigma_1 σ1为矩阵 A \bold A A最大的奇异值

理解:向量 ℓ 2 \ell ^2 2范数就是向量的几何长度,求算子范数就是找向量的最大伸缩量
从这个意义理解,显然单位阵 I I I的算子2范数为1;
正交矩阵/酉矩阵的 算子2范数为1;
对角矩阵的 算子2范数为 最大对角元

对于单纯矩阵,算子2范数就是最大特征值 λ 1 \lambda_1 λ1
在这里插入图片描述
然而,更一般的情况下,根据EVD/SVD的几何意义,特征向量是变换后仅受缩放的向量(左图),奇异向量才是变换中拉伸效果最大的向量(右图)
也就是说, ∥ A ∥ 2 2 = max ⁡ ∥ x ∥ = 1 x H A H A x = λ m a x ( A H A ) \displaystyle \Vert A\Vert^2_2=\displaystyle\max_{\Vert\mathbf{x}\Vert=1}\mathbf{x}^{H}A^{H}A\mathbf{x}=\lambda_{\mathrm{max}}(A^{H}A) A22=x=1maxxHAHAx=λmax(AHA),证明见 奇异值分解的几何意义
因此,最大奇异值 σ 1 \sigma_1 σ1 给出了算子2范数,对应的受到最大程度拉伸的向量是右奇异向量( A v 1 = σ 1 u 1 \mathbf {A}\mathbf v_1=\sigma_1 \mathbf u_1 Av1=σ1u1
故此最优化问题的解是 ∥ A ∥ a = max ⁡ ∥ A x ∥ a ∥ x ∥ a = ∥ A v 1 ∥ ∥ v 1 ∥ = ∥ σ 1 u 1 ∥ ∥ v 1 ∥ = σ 1 {\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \frac{{\left\| {\boldsymbol A{\bold v_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = \frac{{\left\| {{\sigma _1}{\bold u_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = {\sigma _1} Aa=maxxaAxa=v1Av1=v1σ1u1=σ1

推论:根据范数的性质 ∥ v + w ∥ ≤ ∥ v ∥ + ∥ w ∥ \left\| {\bold v + \bold w} \right\| \le \left\| \bold v \right\| + \left\| \bold w \right\| v+wv+w,由算子2范数有, A + B \bold {A+B} A+B的最大奇异值 ≤ \leq A \bold {A} A的最大奇异值+ B \bold {B} B的最大奇异值

  • 算子1范数 /列和范数: ∥ A ∥ 1 = max ⁡ ∥ x ∥ 1 = 1 ∥ A x ∥ 1 = max ⁡ 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ \displaystyle \Vert A\Vert_1=\max_{\Vert\mathbf{x}\Vert_1=1}\Vert A\mathbf{x}\Vert_1=\max_{1\le j\le n}\sum_{i=1}^n\vert a_{ij}\vert A1=x1=1maxAx1=1jnmaxi=1naij
  • 算子 ∞ \infty 范数 /行和范数: ∥ A ∥ ∞ = max ⁡ ∥ x ∥ ∞ = 1 ∥ A x ∥ ∞ = max ⁡ 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ \displaystyle \Vert A\Vert_{\infty}=\max_{\Vert\mathbf{x}\Vert_{\infty}=1}\Vert A\mathbf{x}\Vert_{\infty}=\max_{1\le i\le n}\sum_{j=1}^n\vert a_{ij}\vert A=x=1maxAx=1inmaxj=1naij

核范数

核范数/ 迹范数: ∥ A ∥ N u c l e a r = σ 1 + ⋯ + σ r {\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r} ANuclear=σ1++σr

酉不变范数:与奇异值有关的范数

酉不变范数是指,矩阵 A A A与酉矩阵 U U U V V V相乘后,该矩阵的范数不变,即: ∥ U A V ∥ = ∥ A ∥ \|UAV\|=\|A\| UAV=A
显然,计算酉不变范数时,可以应用SVD: ∥ A ∥ = ∥ U Σ V H ∥ = ∥ Σ ∥ \|A\|=\|U\Sigma V^H\|=\|\Sigma\| A=UΣVH=∥Σ∥,因此,酉不变范数必然可以写作奇异值的函数

在上面介绍的范数中,
F范数 ∥ ⋅ ∥ m 2 \|\cdot\|_{m2} m2 和 谱范数 ∥ ⋅ ∥ 2 \|\cdot\|_2 2是酉不变范数
算子范数 ∥ ⋅ ∥ 1 \|\cdot\|_{1} 1 ∥ ⋅ ∥ ∞ \|\cdot\|_{\infty} 不是酉不变范数

上面的F范数、算子2范数、核范数都是酉不变范数,进而都与奇异值有关;若将矩阵视为广义的向量,那么

  • 矩阵的核范数相当于向量的L1范数, ∥ A ∥ N u c l e a r = σ 1 + ⋯ + σ r {\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r} ANuclear=σ1++σr
  • 矩阵的F范数类似向量的 ℓ 2 \ell ^2 2范数, ∥ A ∥ F = σ 1 2 + ⋯ + σ r 2 {\left\| \boldsymbol A \right\|_F} =\sqrt {\sigma _1^2 + \cdots + \sigma _r^2} AF=σ12++σr2
  • 矩阵的算子2范数像向量的 ℓ ∞ \ell ^\infty 范数, ∥ A ∥ 2 = r ( A H A ) = σ 1 {\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1 A2=r(AHA) =σ1

reference:
MIT 18.065—机器学习中的矩阵方法08 向量和矩阵的范数
赋范向量空间
向量范数
矩阵范数

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值