矩阵范数介绍

理论

参考张贤达矩阵分析page 34

矩阵范数主要有三种类型:诱导范数,元素形式范数和Schatten范数

1 诱导范数 (induced norm)

诱导范数又称 m × n m\times n m×n矩阵空间上的算子范数 (operator norm),定义为

(1.4.36)

∥ A ∥ = max ⁡ { ∥ A x ∥ : x ∈ K n , ∥ x ∥ = 1 } = max ⁡ { ∥ A x ∥ ∥ x ∥ : x ∈ K n , x ≠ 0 } \begin{aligned}\|A\|&=\max\{\|Ax\|:\boldsymbol{x}\in\mathbb{K}^n,\|\boldsymbol{x}\|=1\}\\&=\max\left\{\frac{\|Ax\|}{\|x\|}:x\in\mathbb{K}^n,x\neq0\right\}\end{aligned} A=max{Ax:xKn,x=1}=max{xAx:xKn,x=0}

(1.4.37)

常用的诱导范数为 p p p-范数

∥ A ∥ p = ⁡ d e f max ⁡ x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \|A\|_p\overset{\mathrm{def}}{\operatorname*{=}}\max_{\boldsymbol{x}\neq0}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p} Ap=defx=0maxxpAxp

(1.4.38)

p p p范数也称 Minkowski p p p范数或者 L p L_p Lp范数。特别地, p = 1 , 2 , ∞ p=1,2,\infty p=1,2,时,对应的诱导范数分别为
∥ A ∥ 1 = max ⁡ 1 ⩽ j ⩽ n ∑ i = 1 m ∣ a i j ∣ ( 1.4.39 ) ∥ A ∥ s p e c = ∥ A ∥ 2 ( 1.4.40 ) ∥ A ∥ ∞ = max ⁡ 1 ⩽ i ⩽ m ∑ j = 1 n ∣ a i j ∣ ( 1.4.41 ) \begin{aligned} &\|A\|_1=\max_{1\leqslant j\leqslant n}\sum_{i=1}^m|a_{ij}|&& (1.4.39) \\ &\left\|A\right\|_{\mathrm{spec}}=\left\|A\right\|_2&& (1.4.40) \\ &\left\|\boldsymbol{A}\right\|_\infty=\max_{1\leqslant i\leqslant m}\sum_{j=1}^n\left|a_{ij}\right|&& (1.4.41) \end{aligned} A1=1jnmaxi=1maijAspec=A2A=1immaxj=1naij(1.4.39)(1.4.40)(1.4.41)
也就是说,诱导 L 1 L_{1} L1 L ∞ L_\infty L范数分别直接是该矩阵的各列元素绝对值之和的最大值 (最大
绝对列和)及最大绝对行和;而诱导 L 2 L_{2} L2范数则是矩阵 A \boldsymbol{A} A的最大奇异值。
诱导 L 1 L_1 L1范数 ∥ A ∥ 1 \|\boldsymbol{A}\|_1 A1和诱导 L ∞ L_\infty L范数 ∥ A ∥ ∞ \|\boldsymbol{A}\|_\infty A也分别称为绝对列和范数 (column-sum norm) 及绝对行和范数 (row-sum norm)。诱导 L 2 L_2 L2范数习惯称为谱范数 (spectrum norm)。

2 “元素形式”范数(“entrywise" norm)

m × n m\times n m×n矩阵先按照列堆栈的形式,排列成一个 m n × 1 mn\times1 mn×1向量,然后采用向量的范数定义,即得到矩阵的范数。由于这类范数是使用矩阵的元素表示的,故称为元素形式范数。元素形式范数是下面的 p p p矩阵范数

∥ A ∥ p = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ p ) 1 / p \left\|A\right\|_p\overset{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^p\right)^{1/p} Ap=def(i=1mj=1naijp)1/p

(1.4.42)

以下是三种典型的元素形式 p p p范数:
(1) L 1 L_{1} L1范数 (和范数) ( p = 1 ) (p=1) (p=1)

(1.4.43)

∥ A ∥ 1 = d e f ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ \|A\|_1\stackrel{\mathrm{def}}{=}\sum_{i=1}^m\sum_{j=1}^n|a_{ij}| A1=defi=1mj=1naij

(2) Frobenius 范数( p = 2 ) p=2) p=2)

∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 \|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2} AF=def(i=1mj=1naij2)1/2

(1.4.44)

(3)最大范数 (max norm)即 p = ∞ p=\infty p= p p p范数,定义为

(1.4.45)

∥ A ∥ ∞ = max ⁡ i = 1 , ⋯   , m ; j = 1 , ⋯   , n { ∣ a i j ∣ } \left\|A\right\|_\infty=\max_{i=1,\cdots,m;j=1,\cdots,n}\{\left|a_{ij}\right|\} A=i=1,,m;j=1,,nmax{aij}

Frobenius 范数可以视为向量的 Euclideani 范数对按照矩阵各列依次排列的“拉长向量” x = [ a 11 , ⋯   , a m 1 , a 12 , ⋯   , a m 2 , ⋯   , a 1 n , ⋯   , a m n ] T x=[a_{11},\cdots,a_{m1},a_{12},\cdots,a_{m2},\cdots,a_{1n},\cdots,a_{mn}]^{\mathrm{T}} x=[a11,,am1,a12,,am2,,a1n,,amn]T的推广。矩阵的 Frobenius 范数有时也称 Euclidean 范数、Schur 范数、Hilbert-Schmidt 范数或者 L 2 L_{2} L2范数。
Frobenius 范数又可写作迹函数的形式

∥ A ∥ F = d e f ⟨ A , A ⟩ 1 / 2 = t r ( A H A ) \left\|\boldsymbol{A}\right\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left\langle\boldsymbol{A},\boldsymbol{A}\right\rangle^{1/2}=\sqrt{\mathrm{tr}\left(\boldsymbol{A}^\mathrm{H}\boldsymbol{A}\right)} AF=defA,A1/2=tr(AHA)

(1.4.46)

由正定的矩阵 Ω \Omega Ω进行加权的 Frobenius 范数

∥ A ∥ Ω = tr ⁡ ( A H Ω A ) \left\|\boldsymbol{A}\right\|_\Omega=\sqrt{\operatorname{tr}(\boldsymbol{A}^\mathrm{H}\boldsymbol{\Omega}\boldsymbol{A})} AΩ=tr(AHΩA)

(1.4.47)
称为Mahalanobis范数

3 Schatten 范数

Schatten 范数就是用矩阵的奇异值定义的范数,将在第 5 章 (奇异值分析) 中介绍。注意,向量 x x x L p L_p Lp范数 ∥ x ∥ p \|x\|_p xp相当于该向量的长度。当矩阵 A A A作用于长度为 ∥ x ∥ p \|x\|_p xp
的向量 x x x时,得到线性变换结果为向量 A x Ax Ax,其长度为 ∥ A x ∥ p \|Ax\|_p Axp。线性变换矩阵 A A A可视为一线性放大器算子。因此,比率 ∥ A x ∥ p / ∥ x ∥ p \|\boldsymbol{A}x\|_p/\|x\|_p Axp/∥xp提供了线性变换 A x Ax Ax相对于 x x x的放大倍数, 而矩阵 A \boldsymbol{A} A p p p范数 ∥ A ∥ p \|\boldsymbol{A}\|_p Ap是由 A \boldsymbol{A} A产生的最大放大倍数。类似地,放大器算子 A \boldsymbol{A} A的最小放大倍数由

min ⁡ ∣ A ∣ p = ⁡ d e f min ⁡ x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \min|\boldsymbol{A}|_p\overset{\mathrm{def}}{\operatorname*{=}}\min_{\boldsymbol{x}\neq\boldsymbol{0}}\frac{\|\boldsymbol{A}\boldsymbol{x}\|_p}{\|\boldsymbol{x}\|_p} minAp=defx=0minxpAxp

(1.4.48)

给出。比率 ∥ A ∥ p / min ⁡ ∣ A ∣ p ′ \|\boldsymbol{A}\|_p/\min|\boldsymbol{A}|_p^{\prime} Ap/minAp描述放大器算子 A A A的“动态范围”。
A , B A,B A,B m × n m\times n m×n矩阵,则矩阵的范数具有以下性质

(1.4.49)

(1.4.50)

(1.4.51)

∥ A + B ∥ + ∥ A − B ∥ = 2 ( ∥ A ∥ 2 + ∥ B ∥ 2 ) \|A+B\|+\|A-B\|=2(\|A\|^2+\|B\|^2) A+B+AB=2(A2+B2)
∥ A + B ∥ ⋅ ∥ A − B ∥ ⩽ ∥ A ∥ 2 + ∥ B ∥ 2 \|A+B\|\cdot\|A-B\|\leqslant\|A\|^2+\|B\|^2 A+BABA2+B2
以下是矩阵的内积与范数之间的关系 [ 238 ] ^{[238]} [238]
(1) Cauchy-Schwartz 不等式
∣ ⟨ A , B ⟩ ∣ 2 ⩽ ∥ A ∥ 2 ∥ B ∥ 2 \left|\langle A,B\rangle\right|^2\leqslant\|A\|^2\|B\|^2 A,B2A2B2
等号成立,当且仅当 A = c B \boldsymbol A=c\boldsymbol B A=cB,其中, c c c是某个复常数。
(2) Pathagoras 定理: ⟨ A , B ⟩ = 0 \langle \boldsymbol{A}, \boldsymbol{B}\rangle = 0 A,B=0 ⇒ \Rightarrow ∥ A + B ∥ 2 = ∥ A ∥ 2 + ∥ B ∥ 2 \| \boldsymbol{A}+ \boldsymbol{B}\| ^2= \| \boldsymbol{A}\| ^2+ \| \boldsymbol{B}\| ^2 A+B2=A2+B2
(3)极化恒等式
R e ( ⟨ A , B ⟩ ) = 1 4 ( ∥ A + B ∥ 2 − ∥ A − B ∥ 2 ) R e ( ⟨ A , B ⟩ ) = 1 2 ( ∥ A + B ∥ 2 − ∥ A ∥ 2 − ∥ B ∥ 2 ) \begin{aligned}&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac14\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}-\boldsymbol{B}\|^2\right)\\&\mathrm{Re}\left(\langle\boldsymbol{A},\boldsymbol{B}\rangle\right)=\frac12\left(\|\boldsymbol{A}+\boldsymbol{B}\|^2-\|\boldsymbol{A}\|^2-\|\boldsymbol{B}\|^2\right)\end{aligned} Re(A,B)=41(A+B2AB2)Re(A,B)=21(A+B2A2B2)
式中 Re ( ⟨ A , B ⟩ ) (\langle\boldsymbol{A},\boldsymbol{B}\rangle) (⟨A,B⟩)表示 A H B A^\mathrm{H}\boldsymbol{B} AHB的实部。

(1.4.52)

(1.4.53)

论文中常用范数的书写

∣ ⋅ ∣ |\cdot| ,denote the absolute value of a complex scalar
∥ ⋅ ∥ \|\cdot\| ,denote the Euclidean norm of a vector,
∥ ⋅ ∥ ∗ \|\cdot\|_* , denote the the nuclear norm of a matrix,
∥ ⋅ ∥ 2 \|\cdot\|_2 2 denote the spectral norm of a matrix.

  1. 欧几里得范数 Euclidean norm ∥ ⋅ ∥ \|\cdot\| 又称Frobenius范数,Schur范数,Hilbert-Schmidt范数或者 L 2 L_2 L2范数:
    欧几里得范数 对于向量 v = [ v 1 , v 2 , … , v n ] ⊤ \mathbf{v} = [v_1, v_2, \dots, v_n]^\top v=[v1,v2,,vn],它表示向量的长度或大小,定义为所有元素平方和的平方根:

    欧几里得范数 ∥ ⋅ ∥ \|\cdot\| 是用于向量的 2-范数。对于向量 v = [ v 1 , v 2 , … , v n ] ⊤ \mathbf{v} = [v_1, v_2, \dots, v_n]^\top v=[v1,v2,,vn],定义为:
    ∥ v ∥ = ∑ i = 1 n ∣ v i ∣ 2 \|\mathbf{v}\| = \sqrt{\sum_{i=1}^n |v_i|^2} v=i=1nvi2
    它表示向量在空间中的长度或大小。

同理引申到矩阵。

∥ A ∥ = ∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 \|A\| = \|A\|_\mathrm{F}\stackrel{\mathrm{def}}{=}\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2} A=AF=def(i=1mj=1naij2)1/2

  1. 核范数 nuclear norm ∥ ⋅ ∥ ∗ \|\cdot\|_*
    核范数是矩阵奇异值的和,也被称为“迹范数”。对于矩阵 A \mathbf{A} A,核范数通过将矩阵的奇异值相加得到,常用于低秩矩阵逼近问题:

    核范数 ∥ ⋅ ∥ ∗ \|\cdot\|_* 是矩阵奇异值的和,常用于低秩矩阵问题。对于矩阵 A \mathbf{A} A,定义为:
    ∥ A ∥ ∗ = ∑ i σ i \|\mathbf{A}\|_* = \sum_{i} \sigma_i A=iσi
    其中 σ i \sigma_i σi 是矩阵 A \mathbf{A} A 的奇异值。

贴上一些关于核范数的拓展介绍。
在这里插入图片描述

  1. 谱范数 spectral norm ∥ ⋅ ∥ 2 \|\cdot\|_2 2
    谱范数,是诱导范数的一种,也称为矩阵的 诱导 L 2 L_2 L2-范数,其定义在最上面

是矩阵的最大奇异值。它描述了矩阵作为线性变换时对向量的最大伸缩程度:

在实际计算时, 谱范数 ∥ ⋅ ∥ 2 \|\cdot\|_2 2 是矩阵的最大奇异值。对于矩阵 A \mathbf{A} A,定义为:
∥ A ∥ 2 = max ⁡ i σ i \|\mathbf{A}\|_2 = \max_i \sigma_i A2=imaxσi
其中 σ i \sigma_i σi 是矩阵 A \mathbf{A} A 的奇异值。

证明如下:

在实际计算中,诱导的 L2 范数,也称为矩阵的谱范数,等于矩阵的最大奇异值。这是因为矩阵的 L2 范数定义为:
∥ A ∥ 2 = sup ⁡ ∥ x ∥ 2 = 1 ∥ A x ∥ 2 \|A\|_2 = \sup_{\|x\|_2 = 1} \|Ax\|_2 A2=x2=1supAx2
也就是对单位向量 (x) 进行矩阵 (A) 作用后所得向量的最大长度(或范数)。这个定义可以理解为,L2 范数描述了矩阵 (A) 在欧几里得空间中作用时可能产生的最大拉伸效果。

在奇异值分解(SVD)中,任意矩阵 (A) 可以表示为:
A = U Σ V T A = U \Sigma V^T A=UΣVT
其中,(U) 和 (V) 是正交矩阵,而 (\Sigma) 是一个对角矩阵,包含了 (A) 的所有奇异值,即 (A) 的作用在不同方向上的尺度因子。

由于 (U) 和 (V) 是正交矩阵,它们的作用不会改变向量的长度(它们仅进行旋转和反射),矩阵 (A) 的拉伸效果完全由 (\Sigma) 矩阵中的对角元素(奇异值)来决定。因此,(A) 对向量的最大拉伸效果(即 L2 范数)就等于最大奇异值。

总结来说,矩阵的 L2 范数与其最大奇异值相等,因此在实际计算诱导 L2 范数时,只需找到矩阵的奇异值并取其中的最大值即可,而无需进一步计算复杂的向量优化问题。

应用与引申,

矩阵的秩等于1为什么等价于它的核范数和谱范数的差小于等于0
在这里插入图片描述

矩阵的秩等于1意味着它可以表示为两个向量的外积,即一个秩为1的矩阵可以写成 A = u v T \mathbf{A} = \mathbf{u} \mathbf{v}^T A=uvT,其中 u \mathbf{u} u v \mathbf{v} v 是向量。为了理解为什么矩阵的秩等于1等价于它的核范数(nuclear norm)和谱范数(spectral norm)的差小于等于0,我们需要先了解这两个范数的定义以及矩阵秩对它们的影响。

  1. 核范数(Nuclear Norm):核范数是矩阵的奇异值的和。对于一个矩阵 A \mathbf{A} A,假设它的奇异值分解为 A = U Σ V T \mathbf{A} = \mathbf{U} \Sigma \mathbf{V}^T A=UΣVT,其中 Σ \Sigma Σ 是一个对角矩阵,对角元素是 A \mathbf{A} A 的奇异值,核范数定义为:
    ∥ A ∥ ∗ = ∑ i σ i \|\mathbf{A}\|_* = \sum_{i} \sigma_i A=iσi
    其中 σ i \sigma_i σi 是矩阵 A \mathbf{A} A 的第 i i i 个奇异值。

  2. 谱范数(Spectral Norm):谱范数是矩阵的最大奇异值,定义为:
    ∥ A ∥ 2 = max ⁡ i σ i \|\mathbf{A}\|_2 = \max_i \sigma_i A2=imaxσi

  3. 秩为1的矩阵:对于一个秩为1的矩阵 A \mathbf{A} A,只有一个非零奇异值 σ 1 \sigma_1 σ1,其余奇异值都是0。因此,对于这种矩阵:
    ∥ A ∥ ∗ = σ 1 且 ∥ A ∥ 2 = σ 1 \|\mathbf{A}\|_* = \sigma_1 \quad \text{且} \quad \|\mathbf{A}\|_2 = \sigma_1 A=σ1A2=σ1
    所以,核范数和谱范数相等,二者之差为0。

  4. 核范数和谱范数的差小于等于0:如果一个矩阵的核范数和谱范数的差小于等于0,则表示矩阵的所有奇异值中,只有最大的那个奇异值是非零的。因为如果有多个非零奇异值,则核范数(所有奇异值之和)会大于谱范数(最大的奇异值),这时核范数和谱范数的差会大于0。因此,核范数和谱范数的差小于等于0的唯一情况是矩阵只有一个非零奇异值,也就是矩阵的秩为1。

因此,矩阵的秩等于1时,它的核范数和谱范数相等,差为0,这就是为什么矩阵的秩等于1等价于核范数和谱范数的差小于等于0。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值