高等代数
矩阵与线性变换
要理解线性变化,首先要给出线性空间的定义:
(线性空间)设 K K K是一个数域, V V V是一个集合,在 V V V上定义了一个加法"+",使得对 V V V中任意两个元素 α , β \alpha, \beta α,β,总存在 V V V中唯一的元素 γ \gamma γ满足 γ = α + β \gamma = \alpha + \beta γ=α+β。在数域 K K K与 V V V间定义数乘运算,使得对 K K K中任一数k及 V V V中任一元素 α \alpha α,总存在 V V V中唯一的元素 δ \delta δ满足: δ = k α \delta = k\alpha δ=kα。若上述加法及数乘满足:
(1) α + β = β + α \alpha+\beta = \beta + \alpha α+β=β+α
(2) ( α + β ) + γ = α + ( β + γ ) (\alpha+\beta)+\gamma = \alpha+(\beta+\gamma) (α+β)+γ=α+(β+γ)
(3) V V V中存在元素0,使得 ∀ α ∈ V \forall \alpha \in V ∀α∈V, α + 0 = α \alpha + 0 = \alpha α+0=α
(4) ∀ α ∈ V \forall \alpha \in V ∀α∈V,存在 β \beta β,使得 α + β = 0 \alpha + \beta = 0 α+β=0
(5) 1 ⋅ α = α 1\cdot \alpha = \alpha 1⋅α=α
(6) k ( α + β ) = k α + k β , k ∈ K k(\alpha+\beta) = k\alpha+k\beta , k \in K k(α+β)=kα+kβ,k∈K
(7) ( k + l ) α = k α + l α , k , l ∈ K (k+l)\alpha = k\alpha + l\alpha, k,l \in K (k+l)α=kα+lα,k,l∈K
(8) k ( l α ) = ( k l ) α k(l\alpha) = (kl)\alpha k(lα)=(kl)α
满足上述条件的 V V V称为数域 K K K上的线性空间
(线性变换)线性变换T是线性空间 V V V到自身的映射,并且满足对 V V V中任意 α , β \alpha, \beta α,β和数域 K K K中任意k,有:
T ( α + β ) = T ( α ) + T ( β ) , T ( k α ) = k T ( α ) T(\alpha+\beta) = T(\alpha)+T(\beta),T(k\alpha) = kT(\alpha) T(α+β)=T(α)+T(β),T(kα)=kT(α)
特征值分解
特征值分解
对于
n
×
n
n\times n
n×n的方阵
A
A
A,如果存在
λ
,
v
≠
0
\lambda ,v \neq 0
λ,v=0使得满足:
A
v
=
λ
v
Av = \lambda v
Av=λv
那么称
λ
\lambda
λ是
A
A
A的一个特征值,
v
v
v是其对应的特征向量。
假设A有n个线性无关的特征向量
{
v
1
,
⋯
,
v
n
}
\{v_1,\cdots,v_n\}
{v1,⋯,vn},对应的特征值为
{
λ
1
,
⋯
,
λ
n
}
\{\lambda_1,\cdots,\lambda_n\}
{λ1,⋯,λn},那么A的特征分解为:
A
=
V
d
i
a
g
(
λ
)
V
−
1
A = Vdiag(\lambda)V^{-1}
A=Vdiag(λ)V−1
其中
V
=
[
v
1
,
⋯
,
v
n
]
V = [v_1,\cdots,v_n]
V=[v1,⋯,vn]是由特征向量拼接而成的矩阵。
每个实对称矩阵都可以分解成实特征向量和实特征值:
A = Q Λ Q T A = Q \Lambda Q^{T} A=QΛQT
一般我们会把 Q Q Q的这n个特征向量标准化,即满足 ∣ ∣ q i ∣ ∣ = 1 ||q_i|| = 1 ∣∣qi∣∣=1,那么此时 Q Q Q的n个特征向量为标准正交基,那么 Q Q Q就是正交阵。这里我们也可以将A看作沿各个 q i q_i qi方向延申 λ i \lambda_i λi倍的空间。
虽然任意实对称矩阵都有特征分解,但是特征分解可能不唯一。如果两个或多个特征向量有相同特征值,那么由这些特征向量产生的子空间中,任意一组正交的向量都是对应这些特征值的特征向量。
SVD分解
上述特征值分解只适用于方阵,对于行和列不同的矩阵,我们也可以做类似的分解,叫作SVD分解。假设
A
A
A是一个
m
×
n
m\times n
m×n的矩阵,那么定义它的SVD分解为:
A
=
U
Σ
V
T
A = U \Sigma V^T
A=UΣVT
其中 U U U是一个 m × m m\times m m×m的矩阵; Σ \Sigma Σ是 m × n m \times n m×n的矩阵,且除了主对角线上以外元素全为零,而主对角线上的元素就称为奇异值; V V V是一个 n × n n\times n n×n的矩阵。 U U U和 V V V都是酉矩阵,即满足 U T U = I , V T V = I U^T U = I, V^T V=I UTU=I,VTV=I
那么
A
T
A
=
V
Σ
T
U
T
U
Σ
V
T
=
V
Σ
T
Σ
V
T
A^T A = V \Sigma^T U^T U \Sigma V^T = V\Sigma^T \Sigma V^T
ATA=VΣTUTUΣVT=VΣTΣVT
A
A
T
=
U
Σ
V
T
V
Σ
T
U
T
=
U
Σ
Σ
T
U
T
AA^T = U \Sigma V^T V \Sigma^T U^T = U \Sigma \Sigma^T U^T
AAT=UΣVTVΣTUT=UΣΣTUT
Σ T Σ \Sigma^T \Sigma ΣTΣ 和 Σ Σ T \Sigma \Sigma^T ΣΣT从矩阵的角度是不相同的,维数分别为 n × n n \times n n×n 和 m × m m \times m m×m,但是它们的主对角线奇异值是相等的。
因此U是 A A T AA^T AAT的m个特征向量张成的矩阵,V是 A T A A^T A ATA的n个特征向量张成的矩阵,奇异值 σ \sigma σ 是 A T A A^T A ATA的特征值的平方根。
奇异值的减少特别快,往往前10%甚至前1%的奇异值就占了全部奇异值之和的99%以上的比例。那么我们也可以用最大的k个奇异值(k往往比n小很多)和对应的奇异向量来近似描述矩阵:
Moore-Penrose伪逆
Reference: