0 复习
0.1 矩阵论
0.1.1 矩阵的逆
- 只有方阵才存在逆矩阵
- 不存在逆矩阵的矩阵称为奇异矩阵
- 检查特征量中是否存在能被其他特征量表示的特征,有则删去
- 样本数若少于特征量则不可逆,可用正则化解决
0.1.2 向量内积
0.1.3 正定矩阵与半正定矩阵
正定矩阵:给定一大小维 n × n n\times n n×n的实对称矩阵A,若对于任意长度为n的非零向量x,有 X T A X > 0 X^TAX>0 XTAX>0恒成立,则矩阵A是一个正定矩阵
半正定矩阵:给定一大小维 n × n n\times n n×n的实对称矩阵A,若对于任意长度为n的非零向量x,有 X T A X ≥ 0 X^TAX\ge0 XTAX≥0恒成立,则矩阵A是一个半正定矩阵
0.1.4 协方差矩阵 ∑ \sum ∑
设
X
=
(
X
1
,
X
2
,
.
.
.
,
X
N
)
T
X=(X_1,X_2,...,X_N)^T
X=(X1,X2,...,XN)T为n维随机变量,称矩阵
(0.1)
C
=
(
c
i
j
)
m
×
n
(
c
11
c
12
.
.
.
c
1
n
c
21
c
22
.
.
.
c
2
n
⋮
⋮
⋮
c
n
1
c
n
2
.
.
.
c
n
n
)
C=(c_{ij})_{m\times n}\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots && \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}\tag{0.1}
C=(cij)m×n⎝⎜⎜⎜⎛c11c21⋮cn1c12c22⋮cn2.........c1nc2n⋮cnn⎠⎟⎟⎟⎞(0.1)
c
i
j
=
C
o
v
(
X
i
,
X
j
)
=
E
[
X
i
−
E
(
X
i
)
]
[
X
j
−
E
(
X
j
)
]
c_{ij}=Cov(X_i,X_j)=E[X_i-E(X_i)][X_j-E(X_j)]
cij=Cov(Xi,Xj)=E[Xi−E(Xi)][Xj−E(Xj)]
- 性质
-
作为实对称矩阵,可以正交对角化,即存在正交矩阵U,使得 U T ∑ U = Λ U^T\sum U=\Lambda UT∑U=Λ
-
作为半正定矩阵,可以进行Cholesky分解,即 ∑ = U T Λ U \sum=U^T\Lambda U ∑=UTΛU,其中U是上三角阵, Λ \Lambda Λ是对角线元素都非负的对角矩阵
∑ = U T Λ U = [ U T Λ 1 / 2 ] [ Λ 1 / 2 U ] = [ Λ 1 / 2 U ] T [ Λ 1 / 2 U ] \sum=U^T\Lambda U=[U^T\Lambda^{1/2}][\Lambda^{1/2}U]=[\Lambda^{1/2}U]^T[\Lambda^{1/2}U] ∑=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
这样一来,矩阵 ∑ = C T C \sum=C^TC ∑=CTC,其中 C = Λ 1 / 2 U C=\Lambda^{1/2}U C=Λ1/2U
0.1.5 特征值与特征向量
(0 .2) A α = λ α A\alpha=\lambda\alpha\tag{0 .2} Aα=λα(0 .2)
左边用矩阵A将向量 α \alpha α做了一个转换,右边将向量 α \alpha α拉伸了 λ \lambda λ倍
说明A对向量 α \alpha α变换后,长度拉伸 λ \lambda λ倍,方向不变。
并不是所有的向量都可以被A通过变换拉伸而方向不变,能够被A拉伸且保持方向不变的向量就是A的特征向量,拉伸的倍数就是特征值
0.1.6 奇异值分解(SVD)
设矩阵A为 m × n m\times n m×n矩阵,则A的SVD为: A = U ∑ V T A=U\sum V^T A=U∑VT
其中U是一个 m × m m\times m m×m的矩阵; ∑ \sum ∑是一个 m × n m\times n m×n的矩阵,除主对角线上的元素外全为0,主对角线上每个元素称为奇异值;V是一个 n × n n\times n n×n矩阵;U和V是酉矩阵,即满足 U T U = I , V T V = I U^TU=I,V^TV=I UTU=I,VTV=I
0.2 概率论与数理统计
0.2.1 贝叶斯定理
在有限的信息下帮助预测出概率
(0.3)
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
P
(
B
)
P(A|B)=P(A)\frac{P(B|A)}{P(B)}\tag{0.3}
P(A∣B)=P(A)P(B)P(B∣A)(0.3)
即后验概率=先验概率×可能性函数
- 先验概率P(A):不知道B事件发生的前提下A事件发生的概率
- 可能性函数 P ( B ∣ A ) P ( B ) \frac{P(B|A)}{P(B)} P(B)P(B∣A):新信息到来后对先验概率的调整因子
- 后验概率P(A|B):B事件发生后对A事件概率的重新评估
0.2.2 全概率公式
(0.4) P ( B ) = P ( B ∣ A ) P ( A ) + P ( B ∣ A ′ ) P ( A ′ ) P(B)=P(B|A)P(A)+P(B|A')P(A')\tag{0.4} P(B)=P(B∣A)P(A)+P(B∣A′)P(A′)(0.4)
0.2.3 条件独立性
(0.5) P ( X , Y ∣ Z ) = P ( X ∣ Z ) P ( Y ∣ Z ) P(X,Y|Z)=P(X|Z)P(Y|Z)\tag{0.5} P(X,Y∣Z)=P(X∣Z)P(Y∣Z)(0.5)
当Z发生时,X发生与否与Y发生与否是无关的
0.2.4 极大似然估计
根据统计出的事实推断最有可能出现的情况
0.2.5 高斯分布(正态分布)
-
Gaussian (Normal) distribution
X ∼ N ( μ , σ 2 ) X\sim\mathcal{N}(\mu,\sigma^2) X∼N(μ,σ2)
(0.6) p ( x ; μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0.6} p(x;μ,σ2)=2πσ1exp(−2σ2(x−μ)2)(0.6)
曲线中心由均值 μ \mu μ决定,概率峰值位置等于 μ \mu μ
曲线宽度由标准差 σ \sigma σ决定, σ \sigma σ越大,图形越胖越低
μ = 1 m ∑ i = 1 m X ( i ) \mu=\frac{1}{m}\sum^m_{i=1}X^{(i)} μ=m1∑i=1mX(i) σ 2 = 1 m ∑ i = 1 m ( X ( i ) − μ ) 2 \sigma^2=\frac{1}{m}\sum^m_{i=1}(X^{(i)}-\mu)^2 σ2=m1∑i=1m(X(i)−μ)2