- 线性代数
向量,向量空间;矩阵, 线性变换;
特征值, 特征向量;奇异值, 奇异值分解 - 概率论与统计
随机事件;条件概率, 全概率,贝叶斯概率;
统计量, 常见分布; 基本原理 - 最优化理论
极限, 导数;线性逼近, 泰勒展开;
凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降
矩阵和线性变换
方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.
v
=
[
x
y
z
]
=
[
x
0
0
]
+
[
0
y
0
]
+
[
0
0
z
]
\pmb v = \begin{bmatrix} x\\ y\\ z\\ \end{bmatrix} =\begin{bmatrix} x\\ 0\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ y\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ 0\\ z\\ \end{bmatrix}
vvv=⎣⎡xyz⎦⎤=⎣⎡x00⎦⎤+⎣⎡0y0⎦⎤+⎣⎡00z⎦⎤
v
=
[
x
y
z
]
=
x
×
[
1
0
0
]
+
y
×
[
0
1
0
]
+
z
×
[
0
0
1
]
\pmb v =\begin{bmatrix} x\\ y\\ z\\ \end{bmatrix}=x\times \begin{bmatrix} 1\\ 0\\ 0\\ \end{bmatrix}+y\times \begin{bmatrix} 0\\ 1\\ 0\\ \end{bmatrix}+z\times \begin{bmatrix} 0\\ 0\\ 1\\ \end{bmatrix}
vvv=⎣⎡xyz⎦⎤=x×⎣⎡100⎦⎤+y×⎣⎡010⎦⎤+z×⎣⎡001⎦⎤
向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量,那么乘以该矩阵就相当于执行了一次坐标转换,如果
a
M
=
b
aM=b
aM=b,我们就可以说,
M
将
a
M将a
M将a转换到
b
b
b。
从这点看,术语“转换”和“乘法”是等价的。
坦率地说,矩阵并不神秘,它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步,用线性代数操作矩阵,是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放,设
n
⃗
\vec{n}
n为平行于缩放方向的单位向量,k为缩放因子,缩放沿穿过原点并平行于
n
⃗
\vec{n}
n的直线(2D中)或平面(3D中)进行。
v
⃗
=
v
⃗
∣
∣
+
v
⃗
⊥
\vec{v} = \vec{v}_{||}+\vec{v}_{⊥}
v=v∣∣+v⊥
v
⃗
∣
∣
=
(
v
⃗
⋅
n
⃗
)
n
⃗
\vec{v}_{||}=(\vec{v}\cdot \vec{n})\vec{n}
v∣∣=(v⋅n)n
v
⃗
⊥
=
v
⃗
−
v
⃗
∣
∣
=
v
⃗
−
(
v
⃗
⋅
n
⃗
)
n
⃗
\vec{v}_{⊥}=\vec{v}-\vec{v}_{||}=\vec{v}-(\vec{v}\cdot \vec{n})\vec{n}
v⊥=v−v∣∣=v−(v⋅n)n
v
⃗
′
=
v
⃗
∣
∣
′
+
v
⃗
⊥
′
\vec{v}^{'}=\vec{v}_{||}^{'}+\vec{v}_{⊥}^{'}
v′=v∣∣′+v⊥′
v
⃗
⊥
′
=
v
⃗
⊥
=
v
⃗
−
(
v
⃗
⋅
n
⃗
)
n
⃗
\vec{v}_{⊥}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}
v⊥′=v⊥=v−(v⋅n)n
v
⃗
∣
∣
′
=
k
⋅
v
⃗
∣
∣
=
k
⋅
(
v
⃗
⋅
n
⃗
)
n
⃗
\vec{v}_{||}^{'}=k\cdot\vec{v}_{||}=k\cdot(\vec{v}\cdot\vec{n})\vec{n}
v∣∣′=k⋅v∣∣=k⋅(v⋅n)n
v
⃗
′
=
v
⃗
⊥
=
v
⃗
−
(
v
⃗
⋅
n
⃗
)
n
⃗
+
k
⋅
(
v
⃗
⋅
n
⃗
)
n
⃗
=
v
⃗
+
(
k
−
1
)
(
n
⃗
⋅
v
⃗
)
n
⃗
\vec{v}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}+k\cdot(\vec{v}\cdot\vec{n})\vec{n}=\vec{v}+(k-1)(\vec{n}\cdot\vec{v})\vec{n}
v′=v⊥=v−(v⋅n)n+k⋅(v⋅n)n=v+(k−1)(n⋅v)n
(待补充)
特征值与特征向量
定义:$A
n
阶
方
阵
,
对
于
n阶方阵, 对于
n阶方阵,对于\lambda
,
存
在
非
零
向
量
, 存在非零向量
,存在非零向量\vec v
,
使
得
, 使得
,使得\pmb A\vec v=\lambda\vec v
,
则
:
,则:
,则:\lambda$就叫特征值,
v
⃗
\vec v
v就叫对应
λ
\lambda
λ的特征向量
特征值可以为0, 特征向量不能为0
A
x
⃗
=
λ
x
⃗
x
≠
0
\pmb A\vec x =\lambda \vec x ~~~~ x\not= 0
AAAx=λx x=0
↓
(
A
−
λ
E
)
x
⃗
=
0
(\pmb A-\lambda \pmb E)\vec x = 0
(AAA−λEEE)x=0
↓
∣
A
−
λ
E
∣
=
0
|\pmb A-\lambda\pmb E|=0
∣AAA−λEEE∣=0
其中
λ
\lambda
λ和
x
x
x为我们需要求得值
- A x \pmb Ax AAAx代表向量的线性变换, λ x \lambda x λx代表向量拉伸变换
- 特征向量的含义就在于使得哪些向量只发生拉伸变换
- 而特征值用于衡量相应的拉伸系数
- 特征值就是运动的速度, 特征向量就是运动的方向
注:只有方阵才能计算特征值和特征向量
例:
A
=
[
4
0
3
−
5
]
\pmb A=\begin{bmatrix} 4&0\\ 3&-5\\ \end{bmatrix}
AAA=[430−5]
求特征值:
∣
A
−
λ
E
∣
|\pmb A-\lambda \pmb E|
∣AAA−λEEE∣
$
=\begin{bmatrix}
4-\lambda&0\
3&-5-\lambda
\end{bmatrix}
$
=
(
4
−
λ
)
(
−
5
−
λ
)
=
0
=(4-\lambda)(-5-\lambda)=0
=(4−λ)(−5−λ)=0
得:
λ
1
=
−
5
,
λ
2
=
4
\lambda_{1}=-5, \lambda_{2}=4
λ1=−5,λ2=4
针对特征值
λ
1
=
−
5
\lambda_{1}=-5
λ1=−5, 计算特征向量
X
1
\pmb X_{1}
XXX1
[
9
0
3
0
]
⋅
x
⃗
=
0
X
1
=
[
0
1
]
\begin{bmatrix} 9&0\\ 3&0\\ \end{bmatrix}\cdot \vec x=0~~~\pmb X_{1}=\begin{bmatrix}0\\1\\\end{bmatrix}
[9300]⋅x=0 XXX1=[01]
针对特征值
λ
2
=
4
\lambda_{2}=4
λ2=4, 计算特征向量
X
2
\pmb X_{2}
XXX2
[
0
0
3
−
9
]
⋅
x
⃗
=
0
X
2
=
[
3
1
]
\begin{bmatrix}0&0\\3&-9\\\end{bmatrix}\cdot\vec x=0~~~\pmb X_{2}=\begin{bmatrix}3\\1\\\end{bmatrix}
[030−9]⋅x=0 XXX2=[31]
例:
A
=
[
4
−
2
3
−
1
]
\pmb A=\begin{bmatrix}4&-2\\3&-1\\\end{bmatrix}
AAA=[43−2−1]
求特征值:
∣
A
−
λ
x
⃗
∣
=
[
4
−
λ
−
2
3
−
1
−
λ
]
=
(
4
−
λ
)
(
−
1
−
λ
)
+
6
=
0
|\pmb A-\lambda \vec x|=\begin{bmatrix}4-\lambda&-2\\3&-1-\lambda\end{bmatrix}=(4-\lambda)(-1-\lambda)+6=0
∣AAA−λx∣=[4−λ3−2−1−λ]=(4−λ)(−1−λ)+6=0
得:
λ
1
=
1
,
λ
2
=
2
\lambda_{1}=1, \lambda_{2}=2
λ1=1,λ2=2
针对特征值
λ
1
=
1
\lambda_{1}=1
λ1=1, 计算特征向量
X
1
\pmb X_{1}
XXX1
[
3
−
2
3
−
2
]
⋅
x
⃗
=
0
X
1
=
[
2
3
]
\begin{bmatrix}3&-2\\3&-2\end{bmatrix}\cdot\vec x=0~~~\pmb X_{1}=\begin{bmatrix}2\\3\\\end{bmatrix}
[33−2−2]⋅x=0 XXX1=[23]
针对特征值
λ
2
=
2
\lambda_{2}=2
λ2=2, 计算特征向量
X
2
\pmb X_{2}
XXX2
[
2
−
2
3
−
3
]
⋅
x
⃗
=
0
X
2
=
[
1
1
]
\begin{bmatrix}2&-2\\3&-3\\\end{bmatrix}\cdot \vec x=0~~~\pmb X_{2}=\begin{bmatrix}1\\1\\\end{bmatrix}
[23−2−3]⋅x=0 XXX2=[11]
另一种计算方式,首先将
x
⃗
\vec x
x表示成特征向量
[
1
1
]
\begin{bmatrix}1\\1\\\end{bmatrix}
[11]和
[
2
3
]
\begin{bmatrix}2\\3\\\end{bmatrix}
[23]的线性组合,即:
x
⃗
=
[
1
2
]
=
−
1
⋅
[
1
1
]
+
1
⋅
[
2
3
]
\vec x=\begin{bmatrix}1\\2\\\end{bmatrix}=-1\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}
x=[12]=−1⋅[11]+1⋅[23]
然后,将特征值与对应系数(特征值)相乘, 得到:
y
⃗
=
−
1
⋅
2
⋅
[
1
1
]
+
1
⋅
1
⋅
[
2
3
]
=
[
0
1
]
\vec y = -1\cdot2\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0\\1\\\end{bmatrix}
y=−1⋅2⋅[11]+1⋅1⋅[23]=[01]
这与
y
⃗
=
A
x
⃗
=
[
0
1
]
\vec y=\pmb A\vec x=\begin{bmatrix}0\\1\\\end{bmatrix}
y=AAAx=[01]相同,表示
A
\pmb A
AAA对向量
x
⃗
\vec x
x的线性变换相当于
A
\pmb A
AAA的特征值和特征向量与
x
⃗
\vec x
x的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
将
x
⃗
\vec x
x向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.
特征值求法
奇异方阵
相似矩阵
定义:若 A \pmb A AAA与 B \pmb B BBB均为n阶方阵, 若存在一个可逆矩阵 P \pmb P PPP, 使 P − 1 ⋅ A ⋅ P = B \pmb P^{-1}\cdot A \cdot \pmb P=B PPP−1⋅A⋅PPP=B, 则称 A \pmb A AAA与 B \pmb B BBB相似
对角化
定义及证明
定义:假设一个
n
×
n
n\times n
n×n阶的方阵
A
\pmb A
AAA,有
n
n
n个线性无关的特征向量
v
1
,
v
2
,
⋯
,
v
n
v_1, v_2,\cdots, v_n
v1,v2,⋯,vn, 所有的特征向量组成特征向量矩阵
S
\pmb S
SSS, 则有
S
−
1
A
S
=
Λ
\pmb S^{-1}\pmb A\pmb S=\Lambda
SSS−1AAASSS=Λ, 其中
Λ
\Lambda
Λ为由
S
\pmb S
SSS对应的特征值组成的对角矩阵, 即:
S
−
1
A
S
=
Λ
=
[
λ
1
⋱
λ
n
]
\pmb S^{-1}\pmb A\pmb S=\Lambda=\begin{bmatrix} \lambda_1\\ &\ddots\\ &&\lambda_n \end{bmatrix}
SSS−1AAASSS=Λ=⎣⎡λ1⋱λn⎦⎤
证明:
A
S
=
A
[
v
1
v
2
v
3
⋯
v
n
]
=
[
λ
1
v
1
λ
2
v
2
λ
3
v
3
⋯
λ
n
v
n
]
=
S
[
λ
1
⋱
λ
n
]
=
S
Λ
\pmb A\pmb S=\pmb A\begin{bmatrix}v_1&v_2&v_3&\cdots&v_n\end{bmatrix}=\begin{bmatrix}\lambda_1v_1&\lambda_2v_2&\lambda_3v_3&\cdots&\lambda_nv_n\end{bmatrix}=\pmb S\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}=\pmb S\pmb{\Lambda}
AAASSS=AAA[v1v2v3⋯vn]=[λ1v1λ2v2λ3v3⋯λnvn]=SSS⎣⎡λ1⋱λn⎦⎤=SSSΛΛΛ
S − 1 A S = S − 1 S Λ = Λ \pmb S^{-1}\pmb A\pmb S=\pmb S^{-1}\pmb S\pmb{\Lambda}=\pmb{\Lambda} SSS−1AAASSS=SSS−1SSSΛΛΛ=ΛΛΛ
A = S Λ S − 1 \pmb A=\pmb S\pmb {\Lambda}\pmb S^{-1} AAA=SSSΛΛΛSSS−1(矩阵对角化)
例:
A
=
[
−
3
2
−
10
6
]
\pmb A=\begin{bmatrix} -3&2\\-10&6\\\end{bmatrix}
AAA=[−3−1026]
对角化
A
\pmb A
AAA.
解:
A
−
λ
E
=
[
−
3
−
λ
2
−
10
6
−
λ
]
\pmb A-\lambda\pmb E=\begin{bmatrix}-3-\lambda&2\\-10&6-\lambda\end{bmatrix}
AAA−λEEE=[−3−λ−1026−λ]
( − 3 − λ ) ( 6 − λ ) + 20 = 0 (-3-\lambda)(6-\lambda)+20=0 (−3−λ)(6−λ)+20=0
λ 1 = 1 , λ 2 = 2 \lambda_1=1, ~~~\lambda_2=2 λ1=1, λ2=2
对应 λ 1 \lambda_1 λ1的特征向量 v 1 v_1 v1:
[ − 4 2 − 10 5 ] ⋅ v 1 = 0 , v 1 = [ 1 2 ] \begin{bmatrix}-4&2\\-10&5\end{bmatrix}\cdot v_1=0, ~~~v_1=\begin{bmatrix}1\\2\end{bmatrix} [−4−1025]⋅v1=0, v1=[12]
对应 λ 2 \lambda_2 λ2的特征向量 v 2 v_2 v2:
[ − 5 2 − 10 4 ] ⋅ v 2 = 0 , v 2 = [ 2 5 ] \begin{bmatrix}-5&2\\-10&4\end{bmatrix}\cdot v_2=0, ~~~v_2=\begin{bmatrix}2\\5\end{bmatrix} [−5−1024]⋅v2=0, v2=[25]
P = [ v ⃗ 1 v ⃗ 2 ] = [ 1 2 2 5 ] \pmb P=\begin{bmatrix}\vec v_1&\vec v_2\end{bmatrix}=\begin{bmatrix}1&2\\2&5\\\end{bmatrix} PPP=[v1v2]=[1225]
P − 1 = [ 5 − 2 − 3 1 ] \pmb P^{-1}=\begin{bmatrix}5&-2\\-3&1\end{bmatrix} PPP−1=[5−3−21](二阶时, 主对角线对换, 负对角线变号/det( P ))