多维高斯概率密度函数形式为
f
(
x
,
μ
,
Σ
)
=
1
(
2
π
)
d
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
f(x,\mu,\Sigma)=\displaystyle\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\Large e ^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}
f(x,μ,Σ)=(2π)d/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
其中
x
x
x 和
μ
\mu
μ 是
d
d
d 维向量,
Σ
\Sigma
Σ 是
d
×
d
d \times d
d×d的矩阵,
Σ
\Sigma
Σ 和
μ
\mu
μ 是待求参数。
设 { x i } , i = 1 ∼ N \{x_i\}, i=1 \sim N {xi},i=1∼N 是符合该密度函数的 N N N 个样本,那么我们可以利用最大似然法(Maxium Likelihood)求待定参数。目标函数为: E ( μ , Σ ) = ∑ i = 1 N ln f ( x i , μ , Σ ) = − N d 2 ln ( 2 π ) − N 2 ln ∣ Σ ∣ − 1 2 ∑ i = 1 N ( x i − μ ) T Σ − 1 ( x i − μ ) E(\mu,\Sigma)=\sum_{i=1}^N \ln f(x_i,\mu,\Sigma)=-\frac{Nd}{2}\ln (2\pi)-\frac{N}{2}\ln |\Sigma|-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)^T\Sigma^{-1}(x_i-\mu) E(μ,Σ)=i=1∑Nlnf(xi,μ,Σ)=−2Ndln(2π)−2Nln∣Σ∣−21i=1∑N(xi−μ)TΣ−1(xi−μ)此时,我们假定 { x i } , i = 1 ∼ N \{x_i\}, i=1 \sim N {xi},i=1∼N满足独立同分布(independent and identical distribution, i.i.d)。
根据最大似然法的要求,我们要求
Σ
\Sigma
Σ 和
μ
\mu
μ 使
E
(
μ
,
Σ
)
E(\mu,\Sigma)
E(μ,Σ)的值最大,由于
E
E
E 是凸函数,故可以直接求使偏导数为
0
0
0 的参数。这里为了简化计算我们可以求
Σ
−
1
\Sigma^{-1}
Σ−1 的偏导,因为行列式容易转换,而后面有一项矩阵如果进行转换回很麻烦,求出
Σ
−
1
\Sigma^{-1}
Σ−1 其实也就是求出了
Σ
\Sigma
Σ
∂
E
∂
μ
=
−
1
2
∑
i
=
1
N
[
Σ
−
1
(
x
i
−
μ
)
+
(
Σ
−
1
)
T
(
x
i
−
μ
)
]
×
(
−
1
)
=
0
∂
E
∂
(
Σ
−
1
)
=
N
2
Σ
T
−
1
2
∑
i
=
1
N
(
x
i
−
μ
)
(
x
i
−
u
)
T
=
0
\begin{aligned} &\frac{\partial E}{\partial \mu}=-\frac{1}{2}\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]\times(-1)=0 \\\\ &\frac{\partial E}{\partial (\Sigma^{-1})}=\frac{N}{2}\Sigma^T-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T=0 \end{aligned}
∂μ∂E=−21i=1∑N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]×(−1)=0∂(Σ−1)∂E=2NΣT−21i=1∑N(xi−μ)(xi−u)T=0
显然,第二个式子好求,化简得
Σ
T
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
(
x
i
−
u
)
T
\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T
ΣT=N1i=1∑N(xi−μ)(xi−u)T可以看出来这是个对称矩阵,故
Σ
=
Σ
T
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
(
x
i
−
u
)
T
,
Σ
−
1
=
(
Σ
−
1
)
T
\begin{aligned}\Sigma=\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T, \Sigma^{-1}=(\Sigma^{-1})^T\end{aligned}
Σ=ΣT=N1i=1∑N(xi−μ)(xi−u)T,Σ−1=(Σ−1)T再看第一个式子
∑
i
=
1
N
[
Σ
−
1
(
x
i
−
μ
)
+
(
Σ
−
1
)
T
(
x
i
−
μ
)
]
=
0
⟹
2
∑
i
=
1
N
[
Σ
−
1
(
x
i
−
μ
)
]
=
0
⟹
Σ
−
1
∑
i
=
1
N
(
x
i
−
μ
)
=
0
⟹
∑
i
=
1
N
(
x
i
−
μ
)
=
0
⟹
μ
=
1
N
∑
i
=
1
N
x
i
\begin{aligned}&\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]=0 \\\\ \implies&2\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)\bigg]=0 \\\\ \implies&\Sigma^{-1}\sum_{i=1}^N(x_i-\mu)=0 \\\\ \implies&\sum_{i=1}^N(x_i-\mu)=0 \\\\ \implies& \mu=\frac{1}{N}\sum_{i=1}^Nx_i \end{aligned}
⟹⟹⟹⟹i=1∑N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]=02i=1∑N[Σ−1(xi−μ)]=0Σ−1i=1∑N(xi−μ)=0i=1∑N(xi−μ)=0μ=N1i=1∑Nxi