《深度学习》 第2章 线性代数
标量、向量、矩阵和张量
矩阵和向量相乘
单位矩阵和逆矩阵
线性相关和生成子空间
范数
衡量向量的大小用范数,
L
P
L^P
LP范数定义如下:
∣
∣
x
∣
∣
p
=
(
∑
i
∣
x
i
∣
p
)
1
p
||x||_p = \left(\sum_i|x_i|^p\right)^{\frac{1}{p}}
∣∣x∣∣p=(i∑∣xi∣p)p1
其中
p
∈
R
,
p
≥
1
p\in \mathbb{R},p \ge 1
p∈R,p≥1
Frobenius范数:
∣
∣
A
∣
∣
F
=
∑
i
,
j
A
i
,
j
2
||A||_F = \sqrt{\sum_{i,j}A_{i,j}^{2}}
∣∣A∣∣F=i,j∑Ai,j2
特殊类型的矩阵和向量
特征分解
A
v
=
λ
v
Av = \lambda v
Av=λv
A
=
V
d
i
a
g
(
λ
)
V
−
1
A = Vdiag(\lambda)V^{-1}
A=Vdiag(λ)V−1
奇异值分解
A = U D V T A = UDV^T A=UDVT
Moore-Penrose伪逆
A
+
=
V
D
+
U
T
A^+ = VD^+U^T
A+=VD+UT
伪逆得到的
x
x
x使得
∣
∣
x
∣
∣
2
||x||_2
∣∣x∣∣2或
∣
∣
A
x
−
y
∣
∣
2
||Ax-y||_2
∣∣Ax−y∣∣2最小
迹运算
T
r
(
A
)
=
∑
i
A
i
,
i
Tr(A) = \sum_iA_{i,i}
Tr(A)=i∑Ai,i
∣
∣
A
∣
∣
F
=
T
r
(
A
A
T
)
||A||_F = \sqrt{Tr(AA^T)}
∣∣A∣∣F=Tr(AAT)
T
r
(
A
B
C
)
=
T
r
(
C
A
B
)
=
T
r
(
B
C
A
)
Tr(ABC) = Tr(CAB) = Tr(BCA)
Tr(ABC)=Tr(CAB)=Tr(BCA)
行列式
d e t ( A ) det(A) det(A)可以衡量矩阵参与矩阵乘法后空间变化多少
实例:主成分分析
奇异值分解正是对线性变换这三种效应的一个析构。
A = μ Σ σ T A=\mu \Sigma \sigma ^{T} A=μΣσT , μ \mu μ和 σ \sigma σ是两组正交单位向量, Σ \Sigma Σ是对角阵,表示奇异值,它表示我们找到了 μ \mu μ和 σ \sigma σ这样两组基, A A A矩阵的作用是将一个向量从 σ \sigma σ这组正交基向量的空间旋转到 μ \mu μ这组正交基向量空间,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值。如果 σ \sigma σ维度比 μ \mu μ大,则表示还进行了投影。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果,分解出来了。
而特征值分解其实是对旋转缩放两种效应的归并。(有投影效应的矩阵不是方阵,没有特征值)特征值,特征向量由 A x = λ x Ax=\lambda x Ax=λx得到,它表示如果一个向量 v v v处于 A A A的特征向量方向,那么 A v Av Av对 v v v的线性变换作用只是一个缩放。也就是说,求特征向量和特征值的过程,我们找到了这样一组基,在这组基下,矩阵的作用效果仅仅是存粹的缩放。对于实对称矩阵,特征向量正交,我们可以将特征向量式子写成 A = x λ x T A=x\lambda x^{T} A=xλxT,这样就和奇异值分解类似了,就是 A A A矩阵将一个向量从 x x x这组基的空间旋转到 x x x这组基的空间,并在每个方向进行了缩放,由于前后都是 x x x,就是没有旋转或者理解为旋转了0度。