一元高斯分布
对于一维高斯分布,概率密度函数可表示为:
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
1
=
∫
−
∞
+
∞
N
(
x
;
μ
,
σ
2
)
d
x
\large \begin{aligned} N(x;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\\ 1 &= \int_{-\infty}^{+\infty} N(x;\mu,\sigma^2) dx \qquad \end{aligned}
N(x;μ,σ2)1=2πσ1exp(−2σ2(x−μ)2)=∫−∞+∞N(x;μ,σ2)dx
正态分布的数学期望值或期望值
μ
\large \mu
μ等于位置参数,决定了分布的位置;其方差
σ
2
\large \sigma^2
σ2的开平方或标准差
σ
\large \sigma
σ等于尺度参数,决定了分布的幅度。我们通常所说的标准正态分布是位置参数
μ
=
0
\large \mu =0
μ=0,尺度参数
σ
2
=
1
\large \sigma^2 = 1
σ2=1的正态分布,其概率密度函数表示为
N
(
x
;
0
,
1
)
=
1
2
π
e
x
p
(
−
x
2
2
)
\large N(x;0,1) = \frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})
N(x;0,1)=2π1exp(−2x2)
多维不相关高斯分布
先假设 n n n维变量 x = [ x 1 , x 2 , ⋯ , x n ] T \large x =[x_1,x_2,\cdots,x_n]^T x=[x1,x2,⋯,xn]T的各个分量相互独立,且每个分量维度都服从正态分布(维度不相关多元正态分布),各个维度的均值 μ = [ μ 1 , μ 2 , ⋯ , μ n ] T \large \mu=[\mu_1,\mu_2,\cdots,\mu_n]^T μ=[μ1,μ2,⋯,μn]T, 方差 σ 2 = [ σ 1 2 , σ 2 2 , ⋯ , σ n 2 ] T \large σ^2=[\sigma_1^2,\sigma_2^2,\cdots,\sigma_n^2]^T σ2=[σ12,σ22,⋯,σn2]T。
多维不相关高斯分布联合概率密度公式:
f
(
x
)
=
N
(
x
1
,
x
2
,
⋯
,
x
n
)
=
N
(
x
1
)
⋅
N
(
x
2
)
⋯
N
(
x
n
)
=
1
(
2
π
)
n
σ
1
σ
2
⋯
σ
n
e
x
p
(
−
(
x
1
−
μ
1
)
2
2
σ
1
2
−
(
x
2
−
μ
2
)
2
2
σ
2
2
⋯
−
(
x
n
−
μ
n
)
2
2
σ
n
2
)
\large \begin{aligned} f(x) &= N(x_1,x_2,\cdots,x_n) = N(x_1)\cdot N(x_2) \cdots N(x_n) \\ &= \frac{1}{(\sqrt{2\pi})^n\sigma_1\sigma_2\cdots\sigma_n}exp(-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}\cdots-\frac{(x_n-\mu_n)^2}{2\sigma_n^2}) \end{aligned}
f(x)=N(x1,x2,⋯,xn)=N(x1)⋅N(x2)⋯N(xn)=(2π)nσ1σ2⋯σn1exp(−2σ12(x1−μ1)2−2σ22(x2−μ2)2⋯−2σn2(xn−μn)2)
这里令
z
2
=
(
x
1
−
μ
1
)
2
σ
1
2
+
(
x
2
−
μ
2
)
2
σ
2
2
⋯
+
(
x
n
−
μ
n
)
2
σ
n
2
,
σ
z
=
σ
1
σ
2
⋯
σ
n
\large \begin{aligned} \quad z^2 &=\frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\cdots+\frac{(x_n-\mu_n)^2}{\sigma_n^2},\\ \large \sigma_z &= \sigma_1\sigma2\cdots\sigma_n \end{aligned}
z2σz=σ12(x1−μ1)2+σ22(x2−μ2)2⋯+σn2(xn−μn)2,=σ1σ2⋯σn
则多维不相关高斯分布概率密度可写成
f
(
x
)
=
1
2
π
n
σ
z
e
x
p
(
−
z
2
2
)
\large f(x) =\frac{1}{\sqrt{2\pi}^n\sigma_z}exp(-\frac{z^2}{2})
f(x)=2πnσz1exp(−2z2)
因为多元正态分布有着很强的几何思想,单纯从代数的角度看待
z
z
z很难看出
z
z
z的概率分布规律,这里需要转换成矩阵形式[3]。这里把
z
\large z
z看成多元向量,那
z
2
\large z^2
z2就可以看成是向量内积的形式。则
z
2
\large z^2
z2可以表示成:
z
2
=
z
T
z
=
[
x
1
−
μ
1
,
x
2
−
μ
2
⋯
,
x
n
−
μ
n
]
[
1
σ
1
2
0
⋯
0
0
1
σ
2
2
⋯
0
⋮
⋮
⋯
⋮
0
0
⋯
1
σ
n
2
]
[
x
1
−
μ
1
,
x
2
−
μ
2
⋯
,
x
n
−
μ
n
]
T
\large z^2 = z^Tz =[x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n] \left[\begin{matrix} \frac{1}{\sigma_1^2} & 0 & \cdots &0\\ 0 & \frac{1}{\sigma_2^2} &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \frac{1}{\sigma_n^2} \end{matrix}\right] [x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n]^T
z2=zTz=[x1−μ1,x2−μ2⋯,xn−μn]⎣⎢⎢⎢⎢⎢⎡σ1210⋮00σ221⋮0⋯⋯⋯⋯00⋮σn21⎦⎥⎥⎥⎥⎥⎤[x1−μ1,x2−μ2⋯,xn−μn]T
这里令
x
−
μ
=
[
x
1
−
μ
1
,
x
2
−
μ
2
⋯
,
x
n
−
μ
n
]
T
\large x-\mu = [x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n]^T
x−μ=[x1−μ1,x2−μ2⋯,xn−μn]T ,定义矩阵
Σ
\large \Sigma
Σ,
Σ
=
[
σ
1
2
0
⋯
0
0
σ
2
2
⋯
0
⋮
⋮
⋯
⋮
0
0
⋯
σ
n
2
]
\large \Sigma =\left[ \begin{matrix} \sigma_1^2 & 0 & \cdots &0\\ 0 & \sigma_2^2 &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \sigma_n^2 \end{matrix} \right]
Σ=⎣⎢⎢⎢⎢⎡σ120⋮00σ22⋮0⋯⋯⋯⋯00⋮σn2⎦⎥⎥⎥⎥⎤
其中,
Σ
\large \Sigma
Σ矩阵的
i
\large i
i行
j
\large j
j列的元素值表示
x
i
\large x_i
xi与
x
j
\large x_j
xj的协方差。这里之所以是对角矩阵,是因为我们在一开始定义的时候就说明了
n
\large n
n维变量
x
=
[
x
1
,
x
2
,
⋯
,
x
n
]
T
\large x=[x_1,x_2,\cdots,x_n]^T
x=[x1,x2,⋯,xn]T相互独立。故除了自协方差,不同元素之间的协方差都是
0
0
0。而且
Σ
\large \Sigma
Σ矩阵一定是可逆的[8]。
由
Σ
\large \Sigma
Σ是对角矩阵,则它的逆矩阵
Σ
−
1
=
[
1
σ
1
2
0
⋯
0
0
1
σ
2
2
⋯
0
⋮
⋮
⋯
⋮
0
0
⋯
1
σ
n
2
]
\large \Sigma^{-1} = \left[ \begin{matrix} \frac{1}{\sigma_1^2} & 0 & \cdots &0\\ 0 & \frac{1}{\sigma_2^2} &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \frac{1}{\sigma_n^2} \end{matrix} \right]
Σ−1=⎣⎢⎢⎢⎢⎢⎡σ1210⋮00σ221⋮0⋯⋯⋯⋯00⋮σn21⎦⎥⎥⎥⎥⎥⎤
它的行列式
∣
Σ
∣
=
∣
σ
1
2
0
⋯
0
0
σ
2
2
⋯
0
⋮
⋮
⋯
⋮
0
0
⋯
σ
n
2
∣
=
σ
1
2
σ
2
2
⋯
σ
n
2
\large |\Sigma| =\left| \begin{matrix} \sigma_1^2 & 0 & \cdots &0\\ 0 & \sigma_2^2 &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \sigma_n^2 \end{matrix} \right| = \sigma_1^2\sigma_2^2\cdots\sigma_n^2
∣Σ∣=∣∣∣∣∣∣∣∣∣∣σ120⋮00σ22⋮0⋯⋯⋯⋯00⋮σn2∣∣∣∣∣∣∣∣∣∣=σ12σ22⋯σn2
则
∣
Σ
∣
1
2
=
σ
1
σ
2
⋯
σ
n
=
σ
z
\large |\Sigma|^{\frac{1}{2}} = \sigma_1\sigma_2\cdots\sigma_n= \sigma_z
∣Σ∣21=σ1σ2⋯σn=σz
替换变量之后,则有:
z
2
=
z
T
z
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
\large z^2 = z^Tz =(x-\mu)^T\Sigma^{-1}(x-\mu)
z2=zTz=(x−μ)TΣ−1(x−μ)
多维不相关高斯分布的概率密度函数可写成:
N
(
x
;
μ
,
Σ
)
=
1
2
π
n
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
\large N(x;\mu,\Sigma) =\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))
N(x;μ,Σ)=2πn∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
多维不相关高斯分布的最大似然估计量
假设 n n n维样本 X = { x 1 , x 2 , ⋯ , x m } \large X = \{x_1,x_2,\cdots,x_m\} X={x1,x2,⋯,xm}来自于高斯分布 x ∼ N ( μ , Σ ) \large x \sim N(\mu,\Sigma) x∼N(μ,Σ),且 m > n m>n m>n,其中 μ \large\mu μ和 Σ \large\Sigma Σ是未知的参数。所谓似然函数就是在给定 μ \large\mu μ和 Σ \large\Sigma Σ的情况下,样本 X \large X X出现的条件概率密度函数 p ( X ∣ μ , Σ ) \large p(X|\mu,\Sigma) p(X∣μ,Σ)。因为样本 X X X是随机选取的,也就是说, x 1 , x 2 , ⋯ , x n \large x_1,x_2,\cdots,x_n x1,x2,⋯,xn是相互独立的观察值。
高斯分布
x
∼
N
(
μ
,
Σ
)
\large x \sim N(\mu,\Sigma)
x∼N(μ,Σ)
N
(
x
;
μ
,
Σ
)
=
1
2
π
n
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
\large N(x;\mu,\Sigma) =\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))
N(x;μ,Σ)=2πn∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
定义关于参数
θ
=
{
μ
,
Σ
}
\large \theta = \{\mu,\Sigma \}
θ={μ,Σ}的
l
n
ln
ln最大似然函数为:
l
n
L
(
θ
)
=
l
n
∏
i
m
N
(
x
i
)
=
∑
i
=
1
m
l
n
N
(
x
i
)
=
∑
i
=
1
m
l
n
[
1
2
π
n
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
)
]
=
∑
i
=
1
m
(
−
n
2
l
n
(
2
π
)
−
1
2
l
n
∣
Σ
∣
−
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
)
=
−
m
n
2
l
n
(
2
π
)
−
m
2
l
n
∣
Σ
∣
−
∑
i
=
1
m
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
\begin{aligned} \large ln\;L(\theta) &= ln \prod_i^mN(x_i)\\ &= \sum_{i=1}^mln\;N(x_i) \\ &= \sum_{i=1}^mln[\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu))]\\ &= \sum_{i=1}^m(-\frac{n}{2}ln(2\pi) - \frac{1}{2}ln|\Sigma| - \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu))\\ &= -\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\\ \end{aligned}
lnL(θ)=lni∏mN(xi)=i=1∑mlnN(xi)=i=1∑mln[2πn∣Σ∣211exp(−21(xi−μ)TΣ−1(xi−μ))]=i=1∑m(−2nln(2π)−21ln∣Σ∣−21(xi−μ)TΣ−1(xi−μ))=−2mnln(2π)−2mln∣Σ∣−i=1∑m21(xi−μ)TΣ−1(xi−μ)
我们的目标是要找出可是
l
n
L
(
θ
)
\large lnL(\theta)
lnL(θ)最大化的
μ
\large\mu
μ和
Σ
\large\Sigma
Σ。 最大似然估计法看似简单,但过程中涉及复杂艰涩的代数推导,尤其是引用许多矩阵、迹数(trace) 和行列式的导数公式,这些相关的知识,请查阅参考文献或者网页的[5] [6] [7]。
微分与矩阵,向量的关系定理:对于标量函数
f
\large f
f和任意形式的
x
\large x
x(矩阵或者向量或者标量),有
d
f
=
T
r
[
(
∂
f
∂
x
)
T
d
x
)
]
\large df = Tr[(\frac{\partial f}{\partial x})^Tdx)]
df=Tr[(∂x∂f)Tdx)]
对 μ \mu μ进行估计
求极值需要对 μ \large \mu μ求偏导(这里注意是对向量求导),首先要介绍在标量对向量求导里的一个推论[5]:对于给定标量函数 f ( x ) = x T A x \large f(x) = x^TAx f(x)=xTAx,其中 A A A是方阵, x \large x x是一个列向量,则 ∂ f ∂ x = A x + A T x \large \frac{\partial f}{\partial x} = Ax+A^Tx ∂x∂f=Ax+ATx。
证明:Notice:
T
r
Tr
Tr 代表取迹运算,
d
d
d代表微分运算
d
f
=
d
(
x
T
A
x
)
=
d
[
T
r
(
x
T
A
x
)
]
(
f
是
一
个
标
量
)
=
T
r
[
d
(
x
T
A
x
)
]
(
T
r
运
算
与
d
运
算
可
交
换
)
=
T
r
[
(
d
x
T
)
A
x
+
x
T
d
(
A
x
)
]
(
矩
阵
微
分
的
性
质
)
=
T
r
[
(
d
x
T
)
A
x
+
x
T
d
(
A
)
x
+
x
T
A
d
x
]
(
d
A
=
0
)
=
T
r
[
(
d
x
T
)
A
x
]
+
T
r
[
x
T
A
d
x
]
(
T
r
(
A
+
B
)
=
T
r
(
A
)
+
T
r
(
B
)
)
=
T
r
[
x
T
A
T
d
x
]
+
T
r
[
x
T
A
d
x
]
(
T
r
(
X
T
)
=
T
r
(
X
)
)
=
T
r
[
(
A
x
+
A
T
x
)
T
d
x
]
\large \begin{aligned} df &= d(x^TAx)\\ &= d\;[Tr(x^TAx)] \qquad\qquad\qquad\qquad\qquad (f是一个标量) \\ &= Tr\;[d(x^TAx) ] \qquad\qquad\qquad\qquad\qquad(Tr运算与d运算可交换)\\ &= Tr\;[(dx^T)Ax + x^Td(Ax)] \qquad\qquad\quad(矩阵微分的性质)\\ &= Tr\;[(dx^T)Ax + x^Td(A)x + x^TAdx] \quad (dA= 0) \\ &= Tr\;[(dx^T)Ax] + Tr\;[x^TAdx] \qquad\qquad (Tr(A+B) = Tr(A) + Tr(B))\\ &= Tr\;[x^TA^Tdx] + Tr\;[x^TAdx] \;\qquad\qquad (Tr(X^T) = Tr(X))\\ &= Tr\;[(Ax + A^Tx)^Tdx] \\ \end{aligned}
df=d(xTAx)=d[Tr(xTAx)](f是一个标量)=Tr[d(xTAx)](Tr运算与d运算可交换)=Tr[(dxT)Ax+xTd(Ax)](矩阵微分的性质)=Tr[(dxT)Ax+xTd(A)x+xTAdx](dA=0)=Tr[(dxT)Ax]+Tr[xTAdx](Tr(A+B)=Tr(A)+Tr(B))=Tr[xTATdx]+Tr[xTAdx](Tr(XT)=Tr(X))=Tr[(Ax+ATx)Tdx]
所以,根据上面所说的定理可得:
∂
f
∂
x
=
A
x
+
A
T
x
\large \frac{\partial f}{\partial x} = Ax+A^Tx
∂x∂f=Ax+ATx
如果
A
\large A
A是一个对称阵,即
A
T
=
A
\large A^T = A
AT=A,那么
∂
f
∂
x
=
2
A
x
\large \frac{\partial f}{\partial x} = 2Ax
∂x∂f=2Ax
对
μ
\large \mu
μ进行估计,要对
μ
\large \mu
μ求偏导。则有:
∂
l
n
L
(
θ
)
∂
μ
=
∂
[
−
m
n
2
l
n
(
2
π
)
−
m
2
l
n
∣
Σ
∣
−
∑
i
=
1
m
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
μ
=
∂
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
μ
(
去
掉
与
μ
无
关
的
)
=
−
1
2
∑
i
=
1
m
∂
[
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
μ
=
−
1
2
∑
i
=
1
m
∂
(
x
i
−
μ
)
∂
μ
∂
[
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
(
x
i
−
μ
)
(
∂
(
x
i
−
μ
)
∂
μ
=
−
I
)
=
1
2
∑
i
=
1
m
∂
[
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
(
x
i
−
μ
)
=
1
2
∑
i
=
1
m
2
Σ
−
1
(
x
i
−
μ
)
(
上
面
的
推
论
)
=
∑
i
=
1
m
Σ
−
1
(
x
i
−
μ
)
\large \begin{aligned} \frac{\partial lnL(\theta)}{\partial \mu} &= \frac{\partial[-\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \mu} \\ &= \frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \mu} \qquad\qquad\qquad (去掉与\mu无关的) \\ &= -\frac{1}{2}\sum_{i=1}^m\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial\mu} \\ &= -\frac{1}{2}\sum_{i=1}^m\frac{\partial(x_i-\mu)}{\partial\mu}\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial(x_i -\mu)} \qquad (\frac{\partial(x_i-\mu)}{\partial\mu} = -I) \\ &= \frac{1}{2}\sum_{i=1}^m\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial(x_i -\mu)} \\ &= \frac{1}{2}\sum_{i=1}^m 2\Sigma^{-1}(x_i-\mu) \qquad\qquad\qquad\qquad\qquad\qquad (上面的推论)\\ &=\sum_{i=1}^m\Sigma^{-1}(x_i -\mu)\\ \end{aligned}
∂μ∂lnL(θ)=∂μ∂[−2mnln(2π)−2mln∣Σ∣−∑i=1m21(xi−μ)TΣ−1(xi−μ)]=∂μ∂[−21∑i=1m(xi−μ)TΣ−1(xi−μ)](去掉与μ无关的)=−21i=1∑m∂μ∂[(xi−μ)TΣ−1(xi−μ)]=−21i=1∑m∂μ∂(xi−μ)∂(xi−μ)∂[(xi−μ)TΣ−1(xi−μ)](∂μ∂(xi−μ)=−I)=21i=1∑m∂(xi−μ)∂[(xi−μ)TΣ−1(xi−μ)]=21i=1∑m2Σ−1(xi−μ)(上面的推论)=i=1∑mΣ−1(xi−μ)
令
∂
l
n
L
(
θ
)
∂
μ
=
0
\large \frac{\partial ln L(\theta)}{\partial \mu} = 0
∂μ∂lnL(θ)=0,即:
∑
i
=
1
m
Σ
−
1
(
x
i
−
μ
)
=
0
⟹
∑
i
=
1
m
(
x
i
−
μ
)
=
0
⟹
μ
=
1
m
∑
i
=
1
m
x
i
\large \sum_{i=1}^m\Sigma^{-1}(x_i -\mu) =0\\ \large \Longrightarrow \sum_{i=1}^m(x_i -\mu) =0\\ \large \Longrightarrow\mu = \frac{1}{m}\sum_{i=1}^mx_i
i=1∑mΣ−1(xi−μ)=0⟹i=1∑m(xi−μ)=0⟹μ=m1i=1∑mxi
对 Σ \Sigma Σ进行估计
求极值需要对
Σ
\large \Sigma
Σ求偏导
∂
l
n
L
(
θ
)
∂
Σ
=
∂
[
−
m
n
2
l
n
(
2
π
)
−
m
2
l
n
∣
Σ
∣
−
∑
i
=
1
m
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
Σ
=
∂
[
−
m
2
l
n
∣
Σ
∣
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
Σ
=
∂
(
−
m
2
l
n
∣
Σ
∣
)
∂
Σ
+
∂
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
Σ
\large \begin{aligned} \frac{\partial lnL(\theta)}{\partial \Sigma} &=\frac{\partial[-\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} \\ &= \frac{\partial[ - \frac{m}{2}ln|\Sigma| -\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma}\\ &= \frac{\partial(- \frac{m}{2}ln|\Sigma|)}{\partial \Sigma} +\frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} \end{aligned}
∂Σ∂lnL(θ)=∂Σ∂[−2mnln(2π)−2mln∣Σ∣−∑i=1m21(xi−μ)TΣ−1(xi−μ)]=∂Σ∂[−2mln∣Σ∣−21∑i=1m(xi−μ)TΣ−1(xi−μ)]=∂Σ∂(−2mln∣Σ∣)+∂Σ∂[−21∑i=1m(xi−μ)TΣ−1(xi−μ)]
式子中的第一项,这里是行列式对矩阵求导:
∂
(
−
m
2
l
n
∣
Σ
∣
)
∂
Σ
=
−
m
2
∂
(
l
n
∣
Σ
∣
)
∂
Σ
=
−
m
2
1
∣
Σ
∣
∂
(
∣
Σ
∣
)
∂
Σ
=
−
m
2
1
∣
Σ
∣
(
∣
Σ
∣
Σ
−
1
)
T
=
−
m
2
Σ
−
1
\large \begin{aligned} \frac{\partial(- \frac{m}{2}ln|\Sigma|)}{\partial \Sigma} &= -\frac{m}{2}\frac{\partial(ln|\Sigma|)}{\partial \Sigma}\\ &= -\frac{m}{2}\frac{1}{|\Sigma|}\frac{\partial(|\Sigma|)}{\partial \Sigma}\\ &= -\frac{m}{2}\frac{1}{|\Sigma|}(|\Sigma|\Sigma^{-1})^T\\ &= -\frac{m}{2}\Sigma^{-1} \end{aligned}
∂Σ∂(−2mln∣Σ∣)=−2m∂Σ∂(ln∣Σ∣)=−2m∣Σ∣1∂Σ∂(∣Σ∣)=−2m∣Σ∣1(∣Σ∣Σ−1)T=−2mΣ−1
式子中的第二项,这里不直接求,而用矩阵微分和
T
r
Tr
Tr的关系来计算。由于是对
Σ
\Sigma
Σ的微分:
d
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
=
d
T
r
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
=
T
r
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
d
Σ
−
1
(
x
i
−
μ
)
]
(
T
r
运
算
与
d
运
算
可
交
换
)
=
T
r
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
(
x
i
−
μ
)
T
d
Σ
−
1
]
=
−
1
2
∑
i
=
1
m
T
r
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
d
Σ
−
1
]
=
−
1
2
∑
i
=
1
m
T
r
[
(
(
x
i
−
μ
)
(
x
i
−
μ
)
T
)
(
−
Σ
−
1
d
Σ
Σ
−
1
)
]
(
N
o
t
e
1
)
=
1
2
∑
i
=
1
m
T
r
[
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
d
Σ
]
(
N
o
t
e
2
)
=
T
r
[
1
2
∑
i
=
1
m
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
d
Σ
]
\large \begin{aligned} &d[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]\\ &=d\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)] \\ &=\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^Td\Sigma^{-1}(x_i-\mu)] \qquad(Tr运算与d运算可交换) \\ &=\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)(x_i-\mu)^Td\Sigma^{-1}] \\ &=-\frac{1}{2}\sum_{i=1}^m\;Tr[ (x_i-\mu)(x_i-\mu)^Td\Sigma^{-1}] \\ &=-\frac{1}{2}\sum_{i=1}^m Tr[((x_i-\mu)(x_i-\mu)^T)(-\Sigma^{-1}d\Sigma\Sigma^{-1})] \qquad (Note1)\\ &= \frac{1}{2}\sum_{i=1}^mTr[ \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma] \qquad\qquad (Note2) \\ &= Tr[\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma] \\ \end{aligned}
d[−21i=1∑m(xi−μ)TΣ−1(xi−μ)]=dTr[−21i=1∑m(xi−μ)TΣ−1(xi−μ)]=Tr[−21i=1∑m(xi−μ)TdΣ−1(xi−μ)](Tr运算与d运算可交换)=Tr[−21i=1∑m(xi−μ)(xi−μ)TdΣ−1]=−21i=1∑mTr[(xi−μ)(xi−μ)TdΣ−1]=−21i=1∑mTr[((xi−μ)(xi−μ)T)(−Σ−1dΣΣ−1)](Note1)=21i=1∑mTr[Σ−1[(xi−μ)(xi−μ)T]Σ−1dΣ](Note2)=Tr[21i=1∑mΣ−1[(xi−μ)(xi−μ)T]Σ−1dΣ]
N o t e 1 : I = Σ Σ − 1 0 = d I = d ( Σ Σ − 1 ) = ( d Σ ) Σ − 1 + Σ ( d Σ − 1 ) d Σ − 1 = − Σ − 1 ( d Σ ) Σ − 1 N o t e 2 : A = [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 d Σ ; B = Σ − 1 T r 的 固 有 性 质 : T r ( A B ) = T r ( B A ) \large \begin{aligned} Note1 : \\ I&= \Sigma\Sigma^{-1} \\ 0 &= dI = d(\Sigma\Sigma^{-1})\\ &= (d\Sigma)\Sigma^{-1}+\Sigma (d\Sigma^{-1})\\ d\Sigma^{-1} &=-\Sigma^{-1}(d\Sigma)\Sigma^{-1}\\ \\ Note2 : A &= [(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma; \\ B&=\Sigma^{-1}\\ Tr的固有性质: &Tr(AB) = Tr(BA) \end{aligned} Note1:I0dΣ−1Note2:ABTr的固有性质:=ΣΣ−1=dI=d(ΣΣ−1)=(dΣ)Σ−1+Σ(dΣ−1)=−Σ−1(dΣ)Σ−1=[(xi−μ)(xi−μ)T]Σ−1dΣ;=Σ−1Tr(AB)=Tr(BA)
因为
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
和
Σ
−
1
都
是
对
称
矩
阵
⟹
(
1
2
∑
i
=
1
m
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
)
T
=
1
2
∑
i
=
1
m
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
\large [(x_i-\mu)(x_i-\mu)^T] 和 \Sigma^{-1}都是对称矩阵 \\ \large \Longrightarrow (\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1})^T =\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}
[(xi−μ)(xi−μ)T]和Σ−1都是对称矩阵⟹(21i=1∑mΣ−1[(xi−μ)(xi−μ)T]Σ−1)T=21i=1∑mΣ−1[(xi−μ)(xi−μ)T]Σ−1
由微分与矩阵,向量的关系定理则有 :
∂
[
−
1
2
∑
i
=
1
m
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
]
∂
Σ
=
1
2
∑
i
=
1
m
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
\large \frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} = \frac{1}{2}\sum_{i=1}^m\Sigma^{-1}[ (x_i-\mu)(x_i-\mu)^T] \Sigma^{-1}
∂Σ∂[−21∑i=1m(xi−μ)TΣ−1(xi−μ)]=21i=1∑mΣ−1[(xi−μ)(xi−μ)T]Σ−1
则:
∂
L
∂
Σ
=
−
m
2
Σ
−
1
+
1
2
∑
i
=
1
m
Σ
−
1
[
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
Σ
−
1
\large \frac{\partial L}{\partial\Sigma} = -\frac{m}{2}\Sigma^{-1} + \frac{1}{2}\sum_{i=1}^m\Sigma^{-1}[ (x_i-\mu)(x_i-\mu)^T] \Sigma^{-1}
∂Σ∂L=−2mΣ−1+21i=1∑mΣ−1[(xi−μ)(xi−μ)T]Σ−1
令
∂
L
∂
Σ
=
0
\large \frac{\partial L}{\partial\Sigma} = 0
∂Σ∂L=0,可得:
Σ
=
1
m
[
∑
i
=
1
m
(
x
i
−
μ
)
(
x
i
−
μ
)
T
]
\large \Sigma = \frac{1}{m}[\sum_{i=1}^m (x_i-\mu)(x_i-\mu)^T]
Σ=m1[i=1∑m(xi−μ)(xi−μ)T]
其中这里的 μ \large \mu μ是上面估计的 μ = 1 m ∑ i = 1 m x i \large \mu= \frac{1}{m}\sum_{i=1}^mx_i μ=m1∑i=1mxi。
参考文献或者网页
[1] 概率论与统计学2——深入理解高斯分布 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/125619927
[2] 正态分布(高斯分布)Techblog of HaoWANG-CSDN博客 https://blog.csdn.net/hhaowang/article/details/83898881?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0.pc_relevant_aa&spm=1001.2101.3001.4242.1&utm_relevant_index=3
[3] 多元高斯分布(The Multivariate normal distributionhttps://www.cnblogs.com/bingjianing/p/9117330.html
[4] 概率笔记12——多维正态分布的最大似然估计 我是8位的-CSDN博客 https://blog.csdn.net/sunbobosun56801/article/details/99753664
[5] Matrix Calculus: Derivation and Simple Application HU, Pili∗ March 30, 2012
[6] 多变量常态分布的最大似然估计 https://ccjou.wordpress.com/2014/06/12/
[7] 迹数与行列式的导数 https://ccjou.wordpress.com/2013/06/03/
[8] 多元高斯分布的协方差矩阵为什么是可逆的?https://zhuanlan.zhihu.com/p/53927925