文章目录
1 向量索引表示
有向量 x = [ x 1 x 2 ⋮ x n ] x=\begin{bmatrix}x_1 \\x_2 \\ \vdots \\ x_n\end{bmatrix} x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤,有集合 S = { 1 , 3 , 6 } S=\{1,3,6\} S={1,3,6},那么
- x S x_S xS,表示索引 x x x向量中的1,3,6元素
- x − S x_{-S} x−S,表示除1,3,6以外的元素
- x − 1 x_{-1} x−1,表示除第一个元素以外的元素
2 矩阵索引表示
有矩阵 A m × n A_{m\times n} Am×n
- A i , : A_{i,:} Ai,:,表示第i行的所有元素
- A : , i A_{:,i} A:,i,表示第i列的所有元素
- f ( A ) i , j f(A)_{i,j} f(A)i,j,表示函数 f f f作用于第i行第j列的元素
3 矩阵和标量的运算
- 矩阵相加
C = A + B C i , j = A i , j + B i , j \begin{aligned} C&=A+B\\ C_{i,j} & = A_{i,j} + B_{i,j} \end{aligned} CCi,j=A+B=Ai,j+Bi,j
- 标量和矩阵相乘及相加
D = a ⋅ B + c D i j = a ⋅ B i , j + c \begin{aligned} D &= a\cdot B + c \\ D_{ij} & = a\cdot B_{i,j} + c \end{aligned} DDij=a⋅B+c=a⋅Bi,j+c - 矩阵和向量相加
C = A + b C i , j = A i , j + b j \begin{aligned} C &= A + b \\ C_{i,j} &= A_{i,j} + b_j \end{aligned} CCi,j=A+b=Ai,j+bj
向量和矩阵的每一行相加。隐式的复制向量b到很多位置的方式,称为广播 - Hadamard乘积/元素对应乘积( A ⨀ B A\bigodot B A⨀B)
C = A ⨀ B C i , j = A i , j ⋅ B i , j \begin{aligned} C &= A\bigodot B \\ C_{i,j} & = A_{i,j} \cdot B_{i,j} \end{aligned} CCi,j=A⨀B=Ai,j⋅Bi,j
3 线性组合
A x = ∑ i x i A : , i \begin{aligned} Ax = \sum _i x_i A_{:,i} \end{aligned} Ax=i∑xiA:,i
4 解方程组
A x = b Ax=b Ax=b
把A的列向量想象成从原点出发的不同方向,确定有多少方法可以到达b点。是否有解,相当于确定b是否在A的列向量张成的空间中。
5 奇异矩阵
列向量线性相关的方阵
6 范数
norm,把向量映射到非负值的函数
∥
x
∥
p
=
(
∑
i
∣
x
i
∣
p
)
1
p
\parallel x \parallel_p = \Big( \sum_i |x_i|^p\Big)^{\frac{1}{p}}
∥x∥p=(i∑∣xi∣p)p1
- L2范数:在原点附近增长很缓慢,不好区分零元素和非零元素
- L1范数:当零元素和非零元素之间茶语非常重要的时候通常会使用L1范数。
- Frobenius范数:衡量矩阵的大小
∥ A ∥ F = ∑ i , j A i , j 2 \parallel A\parallel _F = \sqrt{\sum_{i,j} A^2_{i,j}} ∥A∥F=i,j∑Ai,j2
7 标准正交
x
T
y
=
0
,
∥
x
∥
2
=
1
,
∥
y
∥
2
=
1
x^Ty=0,\parallel x\parallel_2=1,\parallel y\parallel_2=1
xTy=0,∥x∥2=1,∥y∥2=1
则x,y是标准正交
8 正交矩阵
行向量和裂像狼分别是标准正交的方阵
A
T
A
=
A
A
T
=
I
A^TA = AA^T=I
ATA=AAT=I
A
−
1
=
A
T
A^{-1}=A^T
A−1=AT
9 特征值,特征向量
-
右特征值,特征向量
A v = λ v Av = \lambda v Av=λv -
特征分解
设A有n个线性无关的特征向量 { v 1 , ⋯   , v n } \{v_1,\cdots,v_n\} {v1,⋯,vn},对应的特征值 { λ 1 , ⋯   , λ n } \{\lambda_1,\cdots,\lambda_n\} {λ1,⋯,λn};用特征向量构成一个矩阵 V = [ v 1 , ⋯   , v n ] V = \begin{bmatrix}v_1,\cdots,v_n \end{bmatrix} V=[v1,⋯,vn],特征值连成一个向量 λ = [ λ 1 , ⋯   , λ n ] T \lambda=\begin{bmatrix}\lambda_1,\cdots,\lambda_n\end{bmatrix}^T λ=[λ1,⋯,λn]T,那么
A = V d i a g ( λ ) V − 1 A=Vdiag(\lambda)V^{-1} A=Vdiag(λ)V−1 -
每个实对称矩阵都可以分解成实特征向量和实特征值
10 正定
- 正定矩阵(positive definite):所有特征值都是正数
- 半正定矩阵(psitive semidefinite):所有特征都是非负数的矩阵
- 负定矩阵:所有的特征值都是负数的矩阵
- 半负矩阵:所有的特征是都是非正数的矩阵。
如果是半正定矩阵,能保证
x
T
A
x
≥
0
x^TAx \geq0
xTAx≥0.
如果是正定矩阵,能保证
x
T
A
x
=
0
=
>
x
=
0
x^TAx =0 => x=0
xTAx=0=>x=0
11 奇异值分解
singular value decomposition,SVD
可以将矩阵分解为奇异向量(singular vector)和奇异值(singular value)
A
=
U
D
V
T
A = UDV^T
A=UDVT
其中A矩阵维度是
m
×
n
m\times n
m×n;U是正交矩阵,维度是
m
×
m
m\times m
m×m;V是正交矩阵,维度是
n
×
n
n\times n
n×n。D是对角矩阵,维度是
m
×
n
m\times n
m×n。
A
A
T
=
U
D
D
T
U
T
A
T
A
=
V
D
D
T
V
T
\begin{aligned} AA^T &= UDD^TU^T \\ A^TA &= VDD^TV^T \end{aligned}
AATATA=UDDTUT=VDDTVT
令
U
=
[
u
1
,
u
2
,
⋯
 
,
u
m
]
U=\begin{bmatrix}u_1,u_2,\cdots,u_m \end{bmatrix}
U=[u1,u2,⋯,um],
V
=
[
v
1
,
v
2
,
⋯
 
,
v
n
]
V=\begin{bmatrix}v_1,v_2,\cdots,v_n \end{bmatrix}
V=[v1,v2,⋯,vn],
D
=
[
λ
1
1
2
0
⋯
0
λ
2
1
2
⋯
0
⋯
λ
n
1
2
⋯
0
⋯
]
m
×
n
D=\begin{bmatrix}\lambda_1^{\frac{1}{2}}&0&\cdots\\ 0&\lambda_2^{\frac{1}{2}}&\cdots\\ 0&\cdots&\lambda_n^{\frac{1}{2}} \\\cdots &0&\cdots\end{bmatrix}_{m\times n}
D=⎣⎢⎢⎢⎡λ12100⋯0λ221⋯0⋯⋯λn21⋯⎦⎥⎥⎥⎤m×n
那么
A
=
λ
1
1
2
u
1
v
1
T
+
λ
2
1
2
u
2
v
2
T
+
⋯
+
λ
n
1
2
u
n
v
n
T
A = \lambda_1^{\frac{1}{2}}u_1v_1^T + \lambda_2^{\frac{1}{2}}u_2v_2^T +\cdots + \lambda_n^{\frac{1}{2}}u_nv_n^T
A=λ121u1v1T+λ221u2v2T+⋯+λn21unvnT
12 伪逆,Moore-Penrosse
A x = y Ax=y Ax=y
- 逆矩阵
当A矩阵的维度 n × n n\times n n×n且A可逆时
x = A − 1 y x = A^{-1}y x=A−1y - 伪逆矩阵
定义
A + = lim α − > 0 ( A T A + α I ) A T A^+ = \lim_{\alpha ->0} (A^TA + \alpha I)A^T A+=α−>0lim(ATA+αI)AT
为A的伪逆矩阵。
如果A矩阵维度
m
×
n
,
m
≠
n
m\times n,m\quad \neq n
m×n,m̸=n。使
A
x
Ax
Ax与
y
y
y尽可能相等
J
=
min
∥
A
x
−
y
∥
2
J = \min \parallel Ax-y\parallel^2
J=min∥Ax−y∥2
求导
∂
J
∂
x
=
(
A
T
A
x
−
A
T
y
)
=
0
\frac{\partial J}{\partial x} = (A^TAx-A^Ty)=0
∂x∂J=(ATAx−ATy)=0
即
A
T
A
x
=
A
T
y
A^TAx = A^Ty
ATAx=ATy
A
T
A
A^TA
ATA是
n
×
n
n\times n
n×n维对称矩阵。
- 推导1
- 当 m > n m >n m>n, A T A A^TA ATA一般可逆,此时 x = ( A T A ) − 1 A T y x = (A^TA)^{-1}A^Ty x=(ATA)−1ATy。
- 当
m
<
n
m <n
m<n,
R
(
A
T
A
)
<
R
(
A
)
<
n
R(A^TA) < R(A) < n
R(ATA)<R(A)<n,矩阵
A
T
A
A^TA
ATA不可逆.
令
J = ∥ A x − y ∥ 2 + λ ∥ x ∥ 2 ∂ J ∂ x = A T A x − A T y + λ x = 0 ( A T A + λ I ) x = A T y x = ( A T A + λ I ) − 1 A T y \begin{aligned} J &= \parallel Ax-y\parallel^2 + \lambda\parallel x \parallel ^2 \\ \frac{\partial J}{\partial x} &= A^TAx-A^Ty + \lambda x = 0\\ &(A^TA + \lambda I)x = A^Ty\\ x&= (A^TA + \lambda I)^{-1}A^Ty \end{aligned} J∂x∂Jx=∥Ax−y∥2+λ∥x∥2=ATAx−ATy+λx=0(ATA+λI)x=ATy=(ATA+λI)−1ATy
- 推导2
A T A A^TA ATA是对称矩阵,可对角化
A T A = p − 1 d i a g ( [ λ 1 , ⋯   , λ n ] ] ) p ∣ A T A ∣ = λ 1 ∗ ⋯ ∗ λ n \begin{aligned} A^TA &= p^{-1}diag(\begin{bmatrix} \lambda_1,\cdots,\lambda_n\end{bmatrix}])p\\ |A^TA|&=\lambda_1*\cdots*\lambda_n \\ \end{aligned} ATA∣ATA∣=p−1diag([λ1,⋯,λn]])p=λ1∗⋯∗λn
- x T ( A T A ) x = ( A x ) T ( A x ) ≥ 0 → λ i ≥ 0 x^T(A^TA)x = (Ax)^T(Ax) \geq 0 \rightarrow \lambda_i \geq 0 xT(ATA)x=(Ax)T(Ax)≥0→λi≥0,此时 ∣ A T A ∣ |A^TA| ∣ATA∣仍然可能为0,不一定可逆
- x T ( A T A + λ I ) x = ( A x ) T ( A x ) + λ x T x > 0 → λ i > 0 x^T(A^TA+\lambda I)x=(Ax)^T(Ax) + \lambda x^Tx >0 \rightarrow \lambda_i >0 xT(ATA+λI)x=(Ax)T(Ax)+λxTx>0→λi>0,此时 ∣ A T A + λ I ∣ > 0 |A^TA+\lambda I|>0 ∣ATA+λI∣>0恒成立,一定可逆
13 PCA
两种理解方式
- 投影后方差最大(已中心化)
max 1 m ∑ ( x T w ) 2 s . t . w T w = 1 \begin{aligned} \max &\quad \frac{1}{m} \sum (x^Tw)^2 \\ s.t. &\quad w^Tw=1 \end{aligned} maxs.t.m1∑(xTw)2wTw=1 - 最小方差(投影后点和原点距离最小)
min ∑ [ x − ( x T w ) w ] 2 \min \sum[x - (x^Tw)w]^2 min∑[x−(xTw)w]2
J = ∑ [ x − ( x T w ) w ] 2 = ∑ [ x − ( x T w ) w ] T [ x − ( x T w ) w ] = ∑ [ x T x − x T ( x T w ) w − ( x T w ) w T x + ( x T w ) ( x T w ) w T w ] = ∑ [ x T x − ( x T w ) 2 − ( x T w ) 2 + ( x T w ) 2 ] = ∑ ( x T x − ( x T w ) 2 ) J = m i n ∑ − ( x T w ) 2 \begin{aligned} J&= \sum[x - (x^Tw)w]^2\\ &= \sum[x - (x^Tw)w]^T[x - (x^Tw)w]\\ &= \sum[x^Tx - x^T(x^Tw)w - (x^Tw)w^Tx + (x^Tw)(x^Tw)w^Tw] \\ & = \sum[x^Tx - (x^Tw)^2 - (x^Tw)^2 + (x^Tw)^2] \\&= \sum(x^Tx - (x^Tw)^2)\\ J &= min \sum -(x^Tw)^2 \end{aligned} JJ=∑[x−(xTw)w]2=∑[x−(xTw)w]T[x−(xTw)w]=∑[xTx−xT(xTw)w−(xTw)wTx+(xTw)(xTw)wTw]=∑[xTx−(xTw)2−(xTw)2+(xTw)2]=∑(xTx−(xTw)2)=min∑−(xTw)2