从度量上讲:内积、积分、投影讲是一个意思。都是: ϕ : R n → R \phi : R^n \rightarrow R \quad ϕ:Rn→R的映射。我们将这样的 ϕ \phi ϕ 在广义上称为某种度量。首先,矩阵是无法比较大小的,例如 a=[3,5] 和 b=[4,4] ,问a和b这两个向量那个大?所以,任何需要度量的东西都需要投影到 R R R 空间。这里,我们取 a 和 b 的范数(满足非负性、齐次性和三角不等式)来将他们投影到 R R R 空间,得到 ||a|| = ||b||,这样,我们知道这两个向量是相等的。
那么,对于矩阵 M M M 怎样比较大小呢?换句话我们怎样选择 ϕ \phi ϕ s.t. ∣ ∣ M ∣ ∣ → R ||M|| \rightarrow R ∣∣M∣∣→R? 那么,我们自然而然会想到矩阵范数(除了满足范数的三条型之外,对于 n × n n \times n n×n 的矩阵,我们希望其满足 相容性,即所谓的服从乘法范数(sub-multiplicative norm): ||AB||<=||A|| ||B||. )。如果不考虑相容性,那么矩阵范数和向量范数就没有区别,因为 m × n m\times n m×n 矩阵全体和 m × n m \times n m×n 维向量空间同构。引入相容性主要是为了保持矩阵作为线性算子的特征,这一点和算子范数的相容性一致,并且可以得到Mincowski定理(有限维线性空间的所有范数都等价)以外的信息。
向量范数:
1-norm:
∣
∣
x
∣
∣
1
=
∑
i
=
1
N
∣
x
i
∣
||x||_1=\sum_{i=1}^N{|x_i|}
∣∣x∣∣1=∑i=1N∣xi∣
2-norm: ∣ ∣ x ∣ ∣ 2 = ( ∑ i = 1 N ∣ x i ∣ 2 ) 1 2 ||x||_2=\big(\sum_{i=1}^N{|x_i|^2}\big)^{\frac{1}{2}} ∣∣x∣∣2=(∑i=1N∣xi∣2)21
∞ \infty ∞-norm: ∣ ∣ x ∣ ∣ 1 = max i ∣ x i ∣ ||x||_1=\max \limits_{i} {|x_i|} ∣∣x∣∣1=imax∣xi∣
p-norm: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 N ∣ x i ∣ p ) 1 p ||x||_p=\big(\sum_{i=1}^N{|x_i|^p}\big)^{\frac{1}{p}} ∣∣x∣∣p=(∑i=1N∣xi∣p)p1
矩阵范数:
1-norm: ∣ ∣ A ∣ ∣ 1 = max j ∑ i = 1 N ∣ a i , j ∣ ||A||_1=\max \limits_{j} \sum_{i=1}^N {|a_{i,j}|} ∣∣A∣∣1=jmax∑i=1N∣ai,j∣ 列和范数
2-norm: ∣ ∣ A ∣ ∣ 2 = λ 1 ||A||_2=\sqrt{\lambda_1} ∣∣A∣∣2=λ1, λ 1 \lambda_1 λ1为 A T A A^TA ATA 的最大特征值。该范数也被称为谱范数。
∞ \infty ∞-norm: ∣ ∣ A ∣ ∣ 1 = max i ∑ j = 1 N ∣ a i , j ∣ ||A||_1=\max \limits_{i} \sum_{j=1}^N {|a_{i,j}|} ∣∣A∣∣1=imax∑j=1N∣ai,j∣ 行和范数
F-norm: ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 M ∑ j = 1 N ∣ a i , j ∣ 2 ) 1 2 ||x||_p=\big(\sum_{i=1}^M \sum_{j=1}^{N} {|a_{i,j}|^2}\big)^{\frac{1}{2}} ∣∣x∣∣p=(∑i=1M∑j=1N∣ai,j∣2)21 ,Frobenius-norm,即矩阵元素绝对值的平方和再开平方。
诱导范数
把矩阵看作线性算子,利用算子范数的性质,那么,矩阵范数可以由向量范数诱导得到:
║A║ = max{║Ax║:║x║=1}= max{║Ax║/║x║: x≠0}
它自动满足对向量范数的相容性
║Ax║ ≤ ║A║║x║ 即: ║AB║ ≤ ║A║║B║。
容易验证F-norm是相容的,但当min{m,n}>1时, F-norm 不能由向量范数诱导( ∣ ∣ E 11 + E 22 ∣ ∣ F = 2 > 1 ||E_{11}+E_{22}||_F=2>1 ∣∣E11+E22∣∣F=2>1)。可以证明任一种矩阵范数总有与之相容的向量范数。来自这里。
另外还有以下结论:
║
A
B
║
F
≤
║
A
║
F
║
B
║
2
║AB║_F \le ║A║_F ║B║_2
║AB║F≤║A║F║B║2
║ A B ║ F ≤ ║ A ║ 2 ║ B ║ F ║AB║_F \le ║A║_2 ║B║_F ║AB║F≤║A║2║B║F
矩阵的谱半径
定义: 设 A 是 n 阶方阵,
λ
i
\lambda_i
λi 是其特征值,i=1,2,…,n。则称特征值的绝对值的最大值为 A 的谱半径,记为
ρ
(
A
)
\rho(A)
ρ(A)。
注:注意要将谱半径与谱范数(2-范数)区别开来,谱范数是指A的最大奇异值,即
A
T
A
A^TA
ATA的最大特征值的算术平方根。谱半径是矩阵的函数,但不是矩阵范数。谱半径和范数的关系是以下几个结论:
定理1:
谱半径不大于矩阵范数,即
ρ
(
A
)
≤
∣
∣
A
∣
∣
\rho(A) \le ||A||
ρ(A)≤∣∣A∣∣。
因为任一特征对λ,x,Ax=λx,可得Ax=λx。两边取范数并利用相容性即得结果。
定理2:
对于任何方阵A以及任意正数e,存在一种矩阵范数使得║A║<ρ(A)+e。
定理3(Gelfand定理):
ρ
(
A
)
=
lim
k
→
∞
║
A
k
║
1
/
k
\rho(A)= \lim \limits_{k \rightarrow \infty} ║A_k║_1/k
ρ(A)=k→∞lim║Ak║1/k。
推论:
推论1:矩阵序列
I
,
A
,
A
2
,
…
A
k
,
…
I,A,A_2,…A_k,…
I,A,A2,…Ak,… 收敛于零的充要条件是
ρ
(
A
)
<
1
\rho(A) < 1
ρ(A)<1。
推论2:级数
I
+
A
+
A
2
+
.
.
.
I+A+A2+...
I+A+A2+... 收敛到(I-A)-1的充要条件是
ρ
(
A
)
<
1
\rho(A) < 1
ρ(A)<1。
酉不变范数
定义:
如果范数║·║满足║A║=║UAV║对任何矩阵A以及酉矩阵U,V成立,那么这个范数称为酉不变范数。
容易验证,2-范数和F-范数是酉不变范数。因为酉变换不改变矩阵的奇异值,所以由奇异值得到的范数是酉不变的,比如2-范数是最大奇异值,F-范数是所有奇异值组成的向量的2-范数。反之可证明,所有的酉不变范数都和奇异值有密切联系:
Von Neumann定理:在酉不变范数和对称度规函数(symmetric gauge function)之间存在一一对应关系。也就是说任何酉不变范数事实上就是所有奇异值的一个对称度规函数。
范数的等价
对任何两个向量范数
∣
∣
∙
∣
∣
α
||\bullet ||_{\alpha}
∣∣∙∣∣α 和
∣
∣
∙
∣
∣
β
||\bullet||_{\beta}
∣∣∙∣∣β,我们有
r
∣
∣
A
∣
∣
α
≤
∣
∣
A
∣
∣
β
≤
s
∣
∣
A
∣
∣
α
r||A||_{\alpha} \le ||A||_{\beta} \le s||A||_{\alpha}
r∣∣A∣∣α≤∣∣A∣∣β≤s∣∣A∣∣α
对某个正数
r
r
r 与
s
s
s,
K
m
×
n
K^{m\times n}
Km×n中所有矩阵 A 成立。换句话说,它们是等价的范数;它们在
K
m
×
n
K^{m\times n}
Km×n上诱导了相同的拓扑。这里,再提一下前文提到的Minkowski定理:有限维线性空间的所有范数都等价。
此外,当,A为方阵时,对任何向量范数
∣
∣
∙
∣
∣
||\bullet||
∣∣∙∣∣,存在惟一一个正数
k
k
k 使得
k
∣
∣
A
∣
∣
k||A||
k∣∣A∣∣ 是一个(服从乘法)矩阵范数,即满足相容性。
- 一个矩阵范数||·||α称为“极小的”,如果不存在其它矩阵范数||·||β满足||·||β≤||·||α。
- ∣ ∣ A ∣ ∣ p ||A||_p ∣∣A∣∣p表示由向量p-范数诱导的矩阵范数。
- 向量范数之间另一个有用的不等式是 ∣ ∣ A ∣ ∣ 2 ≤ ∣ ∣ A ∣ ∣ 1 ∣ ∣ A ∣ ∣ ∞ ||A||_2 \le \sqrt{||A||_1||A||_{\infty}} ∣∣A∣∣2≤∣∣A∣∣1∣∣A∣∣∞ 。
空间范数
基本性质
有限维空间上的范数具有良好的性质,主要体现在以下几个定理:
- 性质1:对于有限维赋范线性空间的任何一组基,范数是元素(在这组基下)的坐标的连续函数。
- 性质2(Minkowski定理):有限维线性空间的所有范数都等价。
- 性质3(Cauchy收敛原理):实数域(或复数域)上的有限维线性空间(按任何范数)必定完备。
- 性质4:有限维赋范线性空间中的序列按坐标收敛的充要条件是它按任何范数都收敛。