1:用极大似然求高斯分布参数
令
d
a
t
a
:
X
=
(
x
1
x
2
.
.
.
x
p
)
T
data:X=(x_1 \ x_2 \ ... \ x_p)^T
data:X=(x1 x2 ... xp)T
x
i
∈
R
p
x_i \in R^p
xi∈Rp
x
i
服
从
N
(
μ
,
σ
2
)
x_i \ 服从 \quad N(\mu,\sigma^2)
xi 服从N(μ,σ2) ,是独立同分布
一维高斯概率密度函数:
p
(
x
)
=
1
2
π
σ
exp
{
−
(
x
−
μ
)
2
2
σ
2
}
p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}
p(x)=2πσ1exp{−2σ2(x−μ)2}
多维高斯概率密度函数:
p
(
x
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
exp
{
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
}
p(x) =\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\}
p(x)=(2π)2p∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}
极大似然法求一维高斯的参数
θ
=
(
μ
,
σ
2
)
\theta =(\mu,\sigma^2)
θ=(μ,σ2)
对原概率函数求对数,对数函数和原函数有相同的单调性
log
p
(
x
∣
θ
)
=
log
∏
i
=
1
n
p
(
x
i
∣
θ
)
\log p(x|\theta)= \displaystyle \log \prod_{i=1}^n p(x_i|\theta)
logp(x∣θ)=logi=1∏np(xi∣θ)
=
∑
i
=
1
n
log
p
(
x
i
∣
θ
)
= \displaystyle \sum_{i=1}^n \log p(x_i|\theta)
=i=1∑nlogp(xi∣θ)
=
∑
i
=
1
n
log
1
2
π
σ
exp
{
−
(
x
i
−
μ
)
2
2
σ
2
}
= \displaystyle \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x_i-\mu)^2}{2\sigma^2}\}
=i=1∑nlog2πσ1exp{−2σ2(xi−μ)2}
=
∑
i
=
1
n
(
log
1
2
π
+
log
1
σ
−
(
x
i
−
μ
)
2
2
σ
2
)
= \displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2})
=i=1∑n(log2π1+logσ1−2σ2(xi−μ)2)
M
L
E
μ
=
a
r
g
m
a
x
μ
log
p
(
x
∣
θ
)
MLE_\mu =argmax_\mu \log p(x|\theta)
MLEμ=argmaxμlogp(x∣θ)
=
a
r
g
m
a
x
μ
∑
i
=
1
n
(
log
1
2
π
+
log
1
σ
−
(
x
i
−
μ
)
2
2
σ
2
)
=argmax_\mu \displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2})
=argmaxμi=1∑n(log2π1+logσ1−2σ2(xi−μ)2)
对
μ
求
偏
导
并
令
其
为
0
有
\mu 求偏导并令其为0 有
μ求偏导并令其为0有
∑
i
=
1
n
2
(
x
i
−
μ
)
(
−
1
)
=
0
\displaystyle \sum_{i=1}^n2(x_i-\mu)(-1)=0
i=1∑n2(xi−μ)(−1)=0
∑
i
=
1
n
x
i
=
∑
i
=
1
n
μ
\displaystyle \sum_{i=1}^nx_i=\displaystyle \sum_{i=1}^n\mu
i=1∑nxi=i=1∑nμ
μ
=
1
n
∑
i
=
1
n
x
i
\mu = \frac{1}{n}\displaystyle \sum_{i=1}^nx_i
μ=n1i=1∑nxi
对
σ
2
求
偏
导
并
令
其
为
0
有
\sigma^2求偏导并令其为0 有
σ2求偏导并令其为0有
∑
i
=
1
n
(
−
1
σ
−
(
x
i
−
μ
)
2
2
∗
(
−
2
)
σ
−
3
)
=
0
\displaystyle \sum_{i=1}^n(-\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2}*(-2)\sigma^{-3})=0
i=1∑n(−σ1−2(xi−μ)2∗(−2)σ−3)=0
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
σ
2
)
=
0
\displaystyle \sum_{i=1}^n((x_i-\mu)^2-\sigma^2)=0
i=1∑n((xi−μ)2−σ2)=0
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
=
0
\sigma^2 =\frac{1}{n}\displaystyle \sum_{i=1}^n(x_i-\mu)^2=0
σ2=n1i=1∑n(xi−μ)2=0
2:高斯分布的几何解释
多维高斯分布公式:
p
(
x
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
exp
{
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
}
p(x) =\displaystyle \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\}
p(x)=(2π)2p∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}
其中
x
i
∈
R
p
x_i \in R^p
xi∈Rp
X
=
[
x
1
x
2
.
.
.
x
n
]
μ
=
[
μ
1
μ
2
.
.
.
μ
n
]
Σ
=
[
σ
11
σ
12
.
.
.
σ
1
p
σ
21
σ
22
.
.
.
σ
2
p
.
.
.
.
.
.
.
.
.
σ
n
1
σ
n
2
.
.
.
σ
n
p
]
并
假
定
Σ
是
正
定
的
X=\left[ \begin{matrix} x_1 \\ x_2 \\ ...\\x_n \end{matrix} \right] \qquad \mu=\left[ \begin{matrix} \mu_1 \\ \mu_2 \\ ...\\\mu_n \end{matrix} \right] \qquad \Sigma=\left[ \begin{matrix} \sigma_{11} \ \sigma_{12} \ ... \sigma_{1p} \\ \sigma_{21} \ \sigma_{22} \ ... \sigma_{2p} \\ ......... \\ \sigma_{n1} \ \sigma_{n2} \ ... \sigma_{np} \\ \end{matrix} \right] \qquad 并假定\Sigma是正定的
X=⎣⎢⎢⎡x1x2...xn⎦⎥⎥⎤μ=⎣⎢⎢⎡μ1μ2...μn⎦⎥⎥⎤Σ=⎣⎢⎢⎡σ11 σ12 ...σ1pσ21 σ22 ...σ2p.........σn1 σn2 ...σnp⎦⎥⎥⎤并假定Σ是正定的
多维高斯分布只有指数项部分和x相关,所以可以只研究指数项部分,其中
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
称
为
x
与
μ
的
马
氏
距
离
(x-\mu)^T \Sigma^{-1}(x-\mu)称为x与\mu的马氏距离
(x−μ)TΣ−1(x−μ)称为x与μ的马氏距离
首先对协方差矩阵做特征值分解,因为是正定矩阵有:
Σ
=
U
λ
U
T
,
U
U
T
=
U
T
U
=
U
−
1
U
=
I
,
λ
=
d
i
a
g
(
λ
i
)
\Sigma =U\lambda U^T, \quad UU^T=U^TU=U^{-1}U=I, \lambda=diag(\lambda_i)
Σ=UλUT,UUT=UTU=U−1U=I,λ=diag(λi)
Σ
−
1
=
(
U
λ
U
T
)
−
1
=
(
U
T
)
−
1
λ
−
1
U
−
1
=
U
λ
−
1
U
T
\Sigma^{-1} =(U\lambda U^T)^{-1}=(U^T)^{-1}\lambda^{-1}U^{-1}=U\lambda^{-1}U^T
Σ−1=(UλUT)−1=(UT)−1λ−1U−1=Uλ−1UT
Σ
=
U
λ
U
T
=
(
u
1
u
2
.
.
.
u
p
)
[
λ
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0...
λ
2
.
.
.
.
.
.
.
.
0
0.........
λ
i
.
.
.
.
0
0
0
.
.
.
.
.
.
.
.
.
.
.
λ
p
]
(
u
1
u
2
.
.
.
u
p
)
T
\Sigma =U\lambda U^T= (u_1\ u_2 \ ...\ u_p) \left[ \begin{matrix} \lambda_1 ..............0 \\ 0... \lambda_2 \ ... .....0 \\ 0.........\lambda_i .... 0\\ 0 \ 0 \ ...........\lambda_p \\ \end{matrix} \right] (u_1\ u_2 \ ...\ u_p)^T \\
Σ=UλUT=(u1 u2 ... up)⎣⎢⎢⎡λ1..............00...λ2 ........00.........λi....00 0 ...........λp⎦⎥⎥⎤(u1 u2 ... up)T
=
(
u
1
λ
1
u
2
λ
2
.
.
.
u
p
λ
p
)
(
u
1
u
2
.
.
.
u
p
)
T
=
∑
u
i
λ
i
u
i
T
=(u_1\lambda_1\ u_2\lambda_2 \ ...\ u_p\lambda_p) (u_1\ u_2 \ ...\ u_p)^T \\ =\sum u_i \lambda_{i}u_i^T
=(u1λ1 u2λ2 ... upλp)(u1 u2 ... up)T=∑uiλiuiT
所以有
Σ
−
1
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
\Sigma^{-1}=\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T
Σ−1=i=1∑puiλi1uiT
带入马氏距离有:
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
(
x
−
μ
)
T
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(
x
−
μ
)
把
求
和
符
号
提
到
前
面
有
=
∑
i
=
1
p
(
x
−
μ
)
T
u
i
1
λ
i
u
i
T
(
x
−
μ
)
(x-\mu)^T \Sigma^{-1}(x-\mu)=(x-\mu)^T\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu)\\ 把求和符号提到前面有\\ =\displaystyle\sum_{i=1}^p(x-\mu)^T u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu)
(x−μ)TΣ−1(x−μ)=(x−μ)Ti=1∑puiλi1uiT(x−μ)把求和符号提到前面有=i=1∑p(x−μ)Tuiλi1uiT(x−μ)
令
y
i
=
(
x
−
μ
)
T
u
i
y_i=(x-\mu)^T u_i
yi=(x−μ)Tui
原式=
∑
i
=
1
p
y
i
2
λ
i
\displaystyle\sum_{i=1}^p \frac{y_i^2}{\lambda_i}
i=1∑pλiyi2
令p=2,也就是3维的情况,有
p
(
x
)
=
y
1
2
λ
1
+
y
2
2
λ
2
p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}
p(x)=λ1y12+λ2y22
当概率给定时,比如r,有
p
(
x
)
=
y
1
2
λ
1
+
y
2
2
λ
2
=
r
p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r
p(x)=λ1y12+λ2y22=r,从几何角度看,该图形是以
λ
为
轴
,
u
方
向
的
椭
圆
\lambda为轴,u方向的椭圆
λ为轴,u方向的椭圆
概率从0到1的整个形状,如下图所示,像山峰一样
3:高斯分布的局限性
- 协方差参数过多,假定 x ∈ R p , 协 方 差 参 数 为 p 2 , 为 了 简 化 操 作 有 时 可 以 假 定 协 方 差 矩 阵 为 对 角 矩 阵 x \in R^p,协方差参数为p^2,为了简化操作有时可以假定协方差矩阵为对角矩阵 x∈Rp,协方差参数为p2,为了简化操作有时可以假定协方差矩阵为对角矩阵
- 当个的高斯分布不一定符合实际问题,有时可以采用混合高斯模型