机器学习1 机器学习数学基础
1. 概率统计
(1)常见的概率分布
a. 伯努利分布:0-1分布
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p, P(X=0)=1-p P(X=1)=p,P(X=0)=1−p.
b. 二项分布:n次伯努利分布,各次实验之间独立
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(X = k) = C_n^kp^k(1-p)^{n-k}
P(X=k)=Cnkpk(1−p)n−k
k次试验,每次试验事件发生概率为
p
p
p,不发生概率为
1
−
p
1-p
1−p
c. 均匀分布
在给定区间[a, b]内分布概率是等可能的,参数为a、b,概率密度函数为
p
(
x
)
=
1
b
−
a
,
a
<
x
<
b
p(x) = \frac{1}{b-a}, \quad a < x <b
p(x)=b−a1,a<x<b
d. 高斯分布(正态)
由均值μ和标准差σ决定其分布,概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2πσ1e−2σ2(x−μ)2
e. 指数分布
常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为:
p
(
x
)
=
λ
e
−
λ
x
x
≥
0
p(x) = \lambda e^{-\lambda x} \quad x \geq 0
p(x)=λe−λxx≥0
指数分布重要特征是无记忆性。
(2)多变量概率分布
条件概率:事件X在事件Y发生的条件下发生的概率,P(X|Y)
联合概率:表示两个事件X和Y共同发生的概率,P(X,Y)
条件概率和联合概率的性质:
P
(
Y
∣
X
)
=
P
(
Y
,
X
)
P
(
X
)
P
(
X
)
>
0
P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0
P(Y∣X)=P(X)P(Y,X)P(X)>0.
推广到 n 个事件,条件概率的链式法则:
P
(
X
1
,
X
2
,
…
,
X
n
)
=
P
(
X
1
∣
X
2
,
…
,
X
n
)
P
(
X
2
∣
X
3
,
X
4
,
…
,
X
n
)
…
P
(
X
n
−
1
∣
X
n
)
P
(
X
n
)
=
P
(
X
n
)
∏
i
=
1
n
−
1
P
(
X
i
∣
X
i
+
1
,
…
,
X
n
)
\begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right) \ &=P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned}
P(X1,X2,…,Xn)=P(X1∣X2,…,Xn)P(X2∣X3,X4,…,Xn)…P(Xn−1∣Xn)P(Xn) =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn)
先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。
后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计。
(3)全概率公式与贝叶斯公式
全概率公式:设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=∑i=1nP(Ai)P(B∣Ai).
贝叶斯公式:全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式 P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) P ( B ) = P ( B ∣ A i ) P ( A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P\left(\mathrm{~A}{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum{j=1}^{n} P\left(\mathrm{~A}{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}{j}\right)} P( Ai∣B)=P( B)P( B∣Ai)P( Ai)=∑j=1nP( Aj)P( B∣Aj)P( B∣Ai)P( Ai)
(4)方差与协方差
方差:衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数 :
V
a
r
(
X
)
=
E
{
[
x
−
E
(
x
)
]
2
}
=
E
(
x
2
)
−
[
E
(
x
)
]
2
Var\left( X \right) =E\left\{ \left[ x-E\left( x \right) \right] ^2 \right\} =E\left( x^2 \right) -\left[ E\left( x \right) \right] ^2
Var(X)=E{[x−E(x)]2}=E(x2)−[E(x)]2
协方差:衡量两个随机变量X和Y直接的总体误差:
C
o
v
(
X
,
Y
)
=
E
{
[
x
−
E
(
x
)
]
[
y
−
E
(
y
)
]
}
=
E
(
x
y
)
−
E
(
x
)
E
(
y
)
Cov\left( X,Y \right) =E\left\{ \left[ x-E\left( x \right) \right] \left[ y-E\left( y \right) \right] \right\} =E\left( xy \right) -E\left( x \right) E\left( y \right)
Cov(X,Y)=E{[x−E(x)][y−E(y)]}=E(xy)−E(x)E(y)
2. 矩阵
(1)矩阵基础
a. 矩阵
二维数组,其中每一个元素一般由两个索引来确定一般用大写变量表示,m行n列的实数矩阵,记做 A ∈ R m × n A \in R_{m \times n} A∈Rm×n。
b. 张量
c. 矩阵的秩(Rank)
矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩,通常记作rank(A)。
d. 矩阵的逆
若矩阵A为方阵,当
r
a
n
k
(
A
n
×
n
)
<
n
rank(A_{n×n})<n
rank(An×n)<n时,称A为奇异矩阵或不可逆矩阵;
若矩阵A为方阵,当
r
a
n
k
(
A
n
×
n
)
=
n
rank(A_{n×n})=n
rank(An×n)=n时,称A为非奇异矩阵或可逆矩阵,其逆矩阵
A
−
1
A^{-1}
A−1 满足以下条件,则称
A
−
1
A^{-1}
A−1 为矩阵A的逆矩阵:
A
A
−
1
=
A
−
1
A
=
I
n
AA^{-1} = A^{-1}A = I_n
AA−1=A−1A=In 其中
I
n
I_n
In 是
n
×
n
n×n
n×n 的单位阵。
e. 矩阵的广义逆矩阵
如果矩阵不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或者伪逆矩阵;对于矩阵A,如果存在矩阵 B B B 使得 A B A = A ABA=A ABA=A,则称 B B B 为 A A A 的广义逆矩阵。
f. 矩阵的特征值、特征向量、迹、行列式
若矩阵
A
A
A 为方阵,则存在非零向量
x
x
x 和常数
λ
\lambda
λ 满足
A
x
=
λ
x
Ax=\lambda x
Ax=λx,则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值,
x
x
x 为矩阵
A
A
A 关于
λ
\lambda
λ 的特征向量。
A
n
×
n
A_{n \times n}
An×n 的矩阵具有
n
n
n 个特征值,
λ
1
≤
λ
2
≤
⋯
≤
λ
n
λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n
λ1≤λ2≤⋯≤λn 其对应的n个特征向量为
𝒖
1
,
𝒖
2
,
⋯
,
𝒖
𝑛
𝒖_1,𝒖_2, ⋯ ,𝒖_𝑛
u1,u2,⋯,un。
矩阵的迹(trace)和行列式(determinant)的值分别为
tr
(
A
)
=
∑
i
=
1
n
λ
i
∣
A
∣
=
∏
i
=
1
n
λ
i
\operatorname{tr}(\mathrm{A})=\sum_{i=1}^{n} \lambda_{i} \quad|\mathrm{~A}|=\prod_{i=1}^{n} \lambda_{i}
tr(A)=i=1∑nλi∣ A∣=i=1∏nλi
(2)矩阵分解
a. 矩阵特征值分解
A
n
×
n
A_{n \times n}
An×n 的矩阵具有
n
n
n 个不同的特征值,那么矩阵A可以分解为
A
=
U
Σ
U
T
A = U\Sigma U^{T}
A=UΣUT.
其中
∑
=
[
λ
1
0
.
.
.
0
0
λ
2
.
.
.
0
0
0
.
.
.
0
0
0
.
.
.
λ
n
]
,
\sum{=\left[ \begin{matrix} \lambda _1& 0& ...& 0\\ 0& \lambda _2& ...& 0\\ 0& 0& ...& 0\\ 0& 0& ...& \lambda _n\\ \end{matrix} \right]},
∑=⎣⎢⎢⎡λ10000λ200............000λn⎦⎥⎥⎤,
U
=
[
u
1
,
u
2
,
.
.
.
,
u
n
]
,
U=\left[ u_1,u_2,...,u_n \right] ,
U=[u1,u2,...,un],
∥
u
i
∥
2
=
1
\lVert u_i \rVert _2=1
∥ui∥2=1
b. 矩阵奇异值分解
对于任意矩阵
A
m
×
n
A_{m \times n}
Am×n,存在正交矩阵
U
m
×
m
U_{m \times m}
Um×m 和
V
n
×
n
V_{n \times n}
Vn×n,使其满足
A
=
U
Σ
V
T
U
T
U
=
V
T
V
=
I
A = U \Sigma V^{T} \quad U^T U = V^T V = I
A=UΣVTUTU=VTV=I,则称上式为矩阵
A
A
A 的特征分解。
3. 信息论
(1)基础知识
a. 熵(Entropy)
信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量。假定当前样本集合X中第i类样本 𝑥 𝑖 𝑥_𝑖 xi 所占的比例为 P ( 𝑥 𝑖 ) ( i = 1 , 2 , . . . , n ) P(𝑥_𝑖)(i=1,2,...,n) P(xi)(i=1,2,...,n),则X的信息熵定义为: H ( X ) = − ∑ i = 1 n P ( x i ) log 2 P ( x i ) , H(X) = -\sum_{i = 1}^n P(x_i)\log_2P(x_i) , H(X)=−i=1∑nP(xi)log2P(xi), H(X)的值越小,则X的纯度越高,蕴含的不确定性越少
b. 联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性: H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y j ) log 2 P ( x i , y j ) H(X, Y) = -\sum_{i = 1}^n \sum_{j = 1}^n P(x_i,y_j)\log_2 P(x_i,y_j) H(X,Y)=−i=1∑nj=1∑nP(xi,yj)log2P(xi,yj)
c. 条件熵
在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,定义为: KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ H(Y|X) &= \sum… 条件熵用来衡量在已知随机变量X的条件下,随机变量Y的不确定。 熵、联合熵和条件熵之间的关系: H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)。
d. 互信息
I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)−H(X,Y)
e. 相对熵
相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P||Q)。在信息论中,D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗,其中P表示信源的真实分布,Q表示P的近似分布。
离散形式:
D
(
P
∣
∣
Q
)
=
∑
P
(
x
)
log
P
(
x
)
Q
(
x
)
D(P||Q) = \sum P(x)\log \frac{P(x)}{Q(x)}
D(P∣∣Q)=∑P(x)logQ(x)P(x).
连续形式:
D
(
P
∣
∣
Q
)
=
∫
P
(
x
)
log
P
(
x
)
Q
(
x
)
D(P||Q) = \int P(x)\log \frac{P(x)}{Q(x)}
D(P∣∣Q)=∫P(x)logQ(x)P(x).
f. 交叉熵
一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,比如在对抗生成网络( GAN )中
D
(
P
∣
∣
Q
)
=
∑
P
(
x
)
log
P
(
x
)
Q
(
x
)
=
∑
P
(
x
)
log
P
(
x
)
−
∑
P
(
x
)
log
Q
(
x
)
=
−
H
(
P
(
x
)
)
−
∑
P
(
x
)
log
Q
(
x
)
\begin{aligned} D\left( P||Q \right) &=\sum{P}\left( x \right) \log \frac{P\left( x \right)}{Q\left( x \right)}\,\,=\sum{P}\left( x \right) \log P\left( x \right) -\sum{P}\left( x \right) \log Q\left( x \right) \,\,=-H\left( P\left( x \right) \right) -\sum{P}\left( x \right) \log Q\left( x \right)\\ \end{aligned}
D(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))−∑P(x)logQ(x)
交叉熵: H ( P , Q ) = − ∑ P ( x ) log Q ( x ) H(P,Q) = -\sum P(x)\log Q(x) H(P,Q)=−∑P(x)logQ(x).