高斯分布的相关知识

一元高斯分布

对于一维高斯分布,概率密度函数可表示为:
N ( x ; μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) 1 = ∫ − ∞ + ∞ N ( x ; μ , σ 2 ) d x \large \begin{aligned} N(x;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\\ 1 &= \int_{-\infty}^{+\infty} N(x;\mu,\sigma^2) dx \qquad \end{aligned} N(x;μ,σ2)1=2π σ1exp(2σ2(xμ)2)=+N(x;μ,σ2)dx
正态分布的数学期望值或期望值 μ \large \mu μ等于位置参数,决定了分布的位置;其方差 σ 2 \large \sigma^2 σ2的开平方或标准差 σ \large \sigma σ等于尺度参数,决定了分布的幅度。我们通常所说的标准正态分布是位置参数 μ = 0 \large \mu =0 μ=0,尺度参数 σ 2 = 1 \large \sigma^2 = 1 σ2=1的正态分布,其概率密度函数表示为
N ( x ; 0 , 1 ) = 1 2 π e x p ( − x 2 2 ) \large N(x;0,1) = \frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2}) N(x;0,1)=2π 1exp(2x2)

多维不相关高斯分布

先假设 n n n维变量 x = [ x 1 , x 2 , ⋯   , x n ] T \large x =[x_1,x_2,\cdots,x_n]^T x=[x1,x2,,xn]T的各个分量相互独立,且每个分量维度都服从正态分布(维度不相关多元正态分布),各个维度的均值 μ = [ μ 1 , μ 2 , ⋯   , μ n ] T \large \mu=[\mu_1,\mu_2,\cdots,\mu_n]^T μ=[μ1,μ2,,μn]T, 方差 σ 2 = [ σ 1 2 , σ 2 2 , ⋯   , σ n 2 ] T \large σ^2=[\sigma_1^2,\sigma_2^2,\cdots,\sigma_n^2]^T σ2=[σ12,σ22,,σn2]T

多维不相关高斯分布联合概率密度公式:
f ( x ) = N ( x 1 , x 2 , ⋯   , x n ) = N ( x 1 ) ⋅ N ( x 2 ) ⋯ N ( x n ) = 1 ( 2 π ) n σ 1 σ 2 ⋯ σ n e x p ( − ( x 1 − μ 1 ) 2 2 σ 1 2 − ( x 2 − μ 2 ) 2 2 σ 2 2 ⋯ − ( x n − μ n ) 2 2 σ n 2 ) \large \begin{aligned} f(x) &= N(x_1,x_2,\cdots,x_n) = N(x_1)\cdot N(x_2) \cdots N(x_n) \\ &= \frac{1}{(\sqrt{2\pi})^n\sigma_1\sigma_2\cdots\sigma_n}exp(-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}\cdots-\frac{(x_n-\mu_n)^2}{2\sigma_n^2}) \end{aligned} f(x)=N(x1,x2,,xn)=N(x1)N(x2)N(xn)=(2π )nσ1σ2σn1exp(2σ12(x1μ1)22σ22(x2μ2)22σn2(xnμn)2)

这里令
z 2 = ( x 1 − μ 1 ) 2 σ 1 2 + ( x 2 − μ 2 ) 2 σ 2 2 ⋯ + ( x n − μ n ) 2 σ n 2 , σ z = σ 1 σ 2 ⋯ σ n \large \begin{aligned} \quad z^2 &=\frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\cdots+\frac{(x_n-\mu_n)^2}{\sigma_n^2},\\ \large \sigma_z &= \sigma_1\sigma2\cdots\sigma_n \end{aligned} z2σz=σ12(x1μ1)2+σ22(x2μ2)2+σn2(xnμn)2,=σ1σ2σn

则多维不相关高斯分布概率密度可写成
f ( x ) = 1 2 π n σ z e x p ( − z 2 2 ) \large f(x) =\frac{1}{\sqrt{2\pi}^n\sigma_z}exp(-\frac{z^2}{2}) f(x)=2π nσz1exp(2z2)
因为多元正态分布有着很强的几何思想,单纯从代数的角度看待 z z z很难看出 z z z的概率分布规律,这里需要转换成矩阵形式[3]。这里把 z \large z z看成多元向量,那 z 2 \large z^2 z2就可以看成是向量内积的形式。则 z 2 \large z^2 z2可以表示成:
z 2 = z T z = [ x 1 − μ 1 , x 2 − μ 2 ⋯   , x n − μ n ] [ 1 σ 1 2 0 ⋯ 0 0 1 σ 2 2 ⋯ 0 ⋮ ⋮ ⋯ ⋮ 0 0 ⋯ 1 σ n 2 ] [ x 1 − μ 1 , x 2 − μ 2 ⋯   , x n − μ n ] T \large z^2 = z^Tz =[x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n] \left[\begin{matrix} \frac{1}{\sigma_1^2} & 0 & \cdots &0\\ 0 & \frac{1}{\sigma_2^2} &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \frac{1}{\sigma_n^2} \end{matrix}\right] [x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n]^T z2=zTz=[x1μ1,x2μ2,xnμn]σ121000σ221000σn21[x1μ1,x2μ2,xnμn]T
这里令 x − μ = [ x 1 − μ 1 , x 2 − μ 2 ⋯   , x n − μ n ] T \large x-\mu = [x_1-\mu_1 ,x_2-\mu_2\cdots,x_n-\mu_n]^T xμ=[x1μ1,x2μ2,xnμn]T ,定义矩阵 Σ \large \Sigma Σ
Σ = [ σ 1 2 0 ⋯ 0 0 σ 2 2 ⋯ 0 ⋮ ⋮ ⋯ ⋮ 0 0 ⋯ σ n 2 ] \large \Sigma =\left[ \begin{matrix} \sigma_1^2 & 0 & \cdots &0\\ 0 & \sigma_2^2 &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \sigma_n^2 \end{matrix} \right] Σ=σ12000σ22000σn2
其中, Σ \large \Sigma Σ矩阵的 i \large i i j \large j j列的元素值表示 x i \large x_i xi x j \large x_j xj的协方差。这里之所以是对角矩阵,是因为我们在一开始定义的时候就说明了 n \large n n维变量 x = [ x 1 , x 2 , ⋯   , x n ] T \large x=[x_1,x_2,\cdots,x_n]^T x=[x1,x2,,xn]T相互独立。故除了自协方差,不同元素之间的协方差都是 0 0 0。而且 Σ \large \Sigma Σ矩阵一定是可逆的[8]。

Σ \large \Sigma Σ是对角矩阵,则它的逆矩阵
Σ − 1 = [ 1 σ 1 2 0 ⋯ 0 0 1 σ 2 2 ⋯ 0 ⋮ ⋮ ⋯ ⋮ 0 0 ⋯ 1 σ n 2 ] \large \Sigma^{-1} = \left[ \begin{matrix} \frac{1}{\sigma_1^2} & 0 & \cdots &0\\ 0 & \frac{1}{\sigma_2^2} &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \frac{1}{\sigma_n^2} \end{matrix} \right] Σ1=σ121000σ221000σn21
它的行列式
∣ Σ ∣ = ∣ σ 1 2 0 ⋯ 0 0 σ 2 2 ⋯ 0 ⋮ ⋮ ⋯ ⋮ 0 0 ⋯ σ n 2 ∣ = σ 1 2 σ 2 2 ⋯ σ n 2 \large |\Sigma| =\left| \begin{matrix} \sigma_1^2 & 0 & \cdots &0\\ 0 & \sigma_2^2 &\cdots &0\\ \vdots & \vdots & \cdots &\vdots\\ 0 & 0 & \cdots& \sigma_n^2 \end{matrix} \right| = \sigma_1^2\sigma_2^2\cdots\sigma_n^2 Σ=σ12000σ22000σn2=σ12σ22σn2
∣ Σ ∣ 1 2 = σ 1 σ 2 ⋯ σ n = σ z \large |\Sigma|^{\frac{1}{2}} = \sigma_1\sigma_2\cdots\sigma_n= \sigma_z Σ21=σ1σ2σn=σz

替换变量之后,则有:
z 2 = z T z = ( x − μ ) T Σ − 1 ( x − μ ) \large z^2 = z^Tz =(x-\mu)^T\Sigma^{-1}(x-\mu) z2=zTz=(xμ)TΣ1(xμ)
多维不相关高斯分布的概率密度函数可写成:
N ( x ; μ , Σ ) = 1 2 π n ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \large N(x;\mu,\Sigma) =\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) N(x;μ,Σ)=2π nΣ211exp(21(xμ)TΣ1(xμ))

多维不相关高斯分布的最大似然估计量

假设 n n n维样本 X = { x 1 , x 2 , ⋯   , x m } \large X = \{x_1,x_2,\cdots,x_m\} X={x1,x2,,xm}来自于高斯分布 x ∼ N ( μ , Σ ) \large x \sim N(\mu,\Sigma) xN(μ,Σ),且 m > n m>n m>n,其中 μ \large\mu μ Σ \large\Sigma Σ是未知的参数。所谓似然函数就是在给定 μ \large\mu μ Σ \large\Sigma Σ的情况下,样本 X \large X X出现的条件概率密度函数 p ( X ∣ μ , Σ ) \large p(X|\mu,\Sigma) p(Xμ,Σ)。因为样本 X X X是随机选取的,也就是说, x 1 , x 2 , ⋯   , x n \large x_1,x_2,\cdots,x_n x1,x2,,xn是相互独立的观察值。

高斯分布 x ∼ N ( μ , Σ ) \large x \sim N(\mu,\Sigma) xN(μ,Σ)
N ( x ; μ , Σ ) = 1 2 π n ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \large N(x;\mu,\Sigma) =\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) N(x;μ,Σ)=2π nΣ211exp(21(xμ)TΣ1(xμ))
定义关于参数 θ = { μ , Σ } \large \theta = \{\mu,\Sigma \} θ={μ,Σ} l n ln ln最大似然函数为:
l n    L ( θ ) = l n ∏ i m N ( x i ) = ∑ i = 1 m l n    N ( x i ) = ∑ i = 1 m l n [ 1 2 π n ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ) ] = ∑ i = 1 m ( − n 2 l n ( 2 π ) − 1 2 l n ∣ Σ ∣ − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ) = − m n 2 l n ( 2 π ) − m 2 l n ∣ Σ ∣ − ∑ i = 1 m 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) \begin{aligned} \large ln\;L(\theta) &= ln \prod_i^mN(x_i)\\ &= \sum_{i=1}^mln\;N(x_i) \\ &= \sum_{i=1}^mln[\frac{1}{\sqrt{2\pi}^n|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu))]\\ &= \sum_{i=1}^m(-\frac{n}{2}ln(2\pi) - \frac{1}{2}ln|\Sigma| - \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu))\\ &= -\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\\ \end{aligned} lnL(θ)=lnimN(xi)=i=1mlnN(xi)=i=1mln[2π nΣ211exp(21(xiμ)TΣ1(xiμ))]=i=1m(2nln(2π)21lnΣ21(xiμ)TΣ1(xiμ))=2mnln(2π)2mlnΣi=1m21(xiμ)TΣ1(xiμ)
我们的目标是要找出可是 l n L ( θ ) \large lnL(\theta) lnL(θ)最大化的 μ \large\mu μ Σ \large\Sigma Σ。 最大似然估计法看似简单,但过程中涉及复杂艰涩的代数推导,尤其是引用许多矩阵、迹数(trace) 和行列式的导数公式,这些相关的知识,请查阅参考文献或者网页的[5] [6] [7]。

微分与矩阵,向量的关系定理:对于标量函数 f \large f f和任意形式的 x \large x x(矩阵或者向量或者标量),有
d f = T r [ ( ∂ f ∂ x ) T d x ) ] \large df = Tr[(\frac{\partial f}{\partial x})^Tdx)] df=Tr[(xf)Tdx)]

μ \mu μ进行估计

求极值需要对 μ \large \mu μ求偏导(这里注意是对向量求导),首先要介绍在标量对向量求导里的一个推论[5]:对于给定标量函数 f ( x ) = x T A x \large f(x) = x^TAx f(x)=xTAx,其中 A A A是方阵, x \large x x是一个列向量,则 ∂ f ∂ x = A x + A T x \large \frac{\partial f}{\partial x} = Ax+A^Tx xf=Ax+ATx

证明:Notice: T r Tr Tr 代表取迹运算, d d d代表微分运算
d f = d ( x T A x ) = d    [ T r ( x T A x ) ] ( f 是 一 个 标 量 ) = T r    [ d ( x T A x ) ] ( T r 运 算 与 d 运 算 可 交 换 ) = T r    [ ( d x T ) A x + x T d ( A x ) ] ( 矩 阵 微 分 的 性 质 ) = T r    [ ( d x T ) A x + x T d ( A ) x + x T A d x ] ( d A = 0 ) = T r    [ ( d x T ) A x ] + T r    [ x T A d x ] ( T r ( A + B ) = T r ( A ) + T r ( B ) ) = T r    [ x T A T d x ] + T r    [ x T A d x ]    ( T r ( X T ) = T r ( X ) ) = T r    [ ( A x + A T x ) T d x ] \large \begin{aligned} df &= d(x^TAx)\\ &= d\;[Tr(x^TAx)] \qquad\qquad\qquad\qquad\qquad (f是一个标量) \\ &= Tr\;[d(x^TAx) ] \qquad\qquad\qquad\qquad\qquad(Tr运算与d运算可交换)\\ &= Tr\;[(dx^T)Ax + x^Td(Ax)] \qquad\qquad\quad(矩阵微分的性质)\\ &= Tr\;[(dx^T)Ax + x^Td(A)x + x^TAdx] \quad (dA= 0) \\ &= Tr\;[(dx^T)Ax] + Tr\;[x^TAdx] \qquad\qquad (Tr(A+B) = Tr(A) + Tr(B))\\ &= Tr\;[x^TA^Tdx] + Tr\;[x^TAdx] \;\qquad\qquad (Tr(X^T) = Tr(X))\\ &= Tr\;[(Ax + A^Tx)^Tdx] \\ \end{aligned} df=d(xTAx)=d[Tr(xTAx)](f)=Tr[d(xTAx)](Trd)=Tr[(dxT)Ax+xTd(Ax)]()=Tr[(dxT)Ax+xTd(A)x+xTAdx](dA=0)=Tr[(dxT)Ax]+Tr[xTAdx](Tr(A+B)=Tr(A)+Tr(B))=Tr[xTATdx]+Tr[xTAdx](Tr(XT)=Tr(X))=Tr[(Ax+ATx)Tdx]
所以,根据上面所说的定理可得:
∂ f ∂ x = A x + A T x \large \frac{\partial f}{\partial x} = Ax+A^Tx xf=Ax+ATx
如果 A \large A A是一个对称阵,即 A T = A \large A^T = A AT=A,那么 ∂ f ∂ x = 2 A x \large \frac{\partial f}{\partial x} = 2Ax xf=2Ax

μ \large \mu μ进行估计,要对 μ \large \mu μ求偏导。则有:
∂ l n L ( θ ) ∂ μ = ∂ [ − m n 2 l n ( 2 π ) − m 2 l n ∣ Σ ∣ − ∑ i = 1 m 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ μ = ∂ [ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ μ ( 去 掉 与 μ 无 关 的 ) = − 1 2 ∑ i = 1 m ∂ [ ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ μ = − 1 2 ∑ i = 1 m ∂ ( x i − μ ) ∂ μ ∂ [ ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ ( x i − μ ) ( ∂ ( x i − μ ) ∂ μ = − I ) = 1 2 ∑ i = 1 m ∂ [ ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ ( x i − μ ) = 1 2 ∑ i = 1 m 2 Σ − 1 ( x i − μ ) ( 上 面 的 推 论 ) = ∑ i = 1 m Σ − 1 ( x i − μ ) \large \begin{aligned} \frac{\partial lnL(\theta)}{\partial \mu} &= \frac{\partial[-\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \mu} \\ &= \frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \mu} \qquad\qquad\qquad (去掉与\mu无关的) \\ &= -\frac{1}{2}\sum_{i=1}^m\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial\mu} \\ &= -\frac{1}{2}\sum_{i=1}^m\frac{\partial(x_i-\mu)}{\partial\mu}\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial(x_i -\mu)} \qquad (\frac{\partial(x_i-\mu)}{\partial\mu} = -I) \\ &= \frac{1}{2}\sum_{i=1}^m\frac{\partial[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial(x_i -\mu)} \\ &= \frac{1}{2}\sum_{i=1}^m 2\Sigma^{-1}(x_i-\mu) \qquad\qquad\qquad\qquad\qquad\qquad (上面的推论)\\ &=\sum_{i=1}^m\Sigma^{-1}(x_i -\mu)\\ \end{aligned} μlnL(θ)=μ[2mnln(2π)2mlnΣi=1m21(xiμ)TΣ1(xiμ)]=μ[21i=1m(xiμ)TΣ1(xiμ)](μ)=21i=1mμ[(xiμ)TΣ1(xiμ)]=21i=1mμ(xiμ)(xiμ)[(xiμ)TΣ1(xiμ)](μ(xiμ)=I)=21i=1m(xiμ)[(xiμ)TΣ1(xiμ)]=21i=1m2Σ1(xiμ)()=i=1mΣ1(xiμ)
∂ l n L ( θ ) ∂ μ = 0 \large \frac{\partial ln L(\theta)}{\partial \mu} = 0 μlnL(θ)=0,即:
∑ i = 1 m Σ − 1 ( x i − μ ) = 0 ⟹ ∑ i = 1 m ( x i − μ ) = 0 ⟹ μ = 1 m ∑ i = 1 m x i \large \sum_{i=1}^m\Sigma^{-1}(x_i -\mu) =0\\ \large \Longrightarrow \sum_{i=1}^m(x_i -\mu) =0\\ \large \Longrightarrow\mu = \frac{1}{m}\sum_{i=1}^mx_i i=1mΣ1(xiμ)=0i=1m(xiμ)=0μ=m1i=1mxi

Σ \Sigma Σ进行估计

求极值需要对 Σ \large \Sigma Σ求偏导
∂ l n L ( θ ) ∂ Σ = ∂ [ − m n 2 l n ( 2 π ) − m 2 l n ∣ Σ ∣ − ∑ i = 1 m 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ Σ = ∂ [ − m 2 l n ∣ Σ ∣ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ Σ = ∂ ( − m 2 l n ∣ Σ ∣ ) ∂ Σ + ∂ [ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ Σ \large \begin{aligned} \frac{\partial lnL(\theta)}{\partial \Sigma} &=\frac{\partial[-\frac{mn}{2}ln(2\pi) - \frac{m}{2}ln|\Sigma| -\sum_{i=1}^m \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} \\ &= \frac{\partial[ - \frac{m}{2}ln|\Sigma| -\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma}\\ &= \frac{\partial(- \frac{m}{2}ln|\Sigma|)}{\partial \Sigma} +\frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} \end{aligned} ΣlnL(θ)=Σ[2mnln(2π)2mlnΣi=1m21(xiμ)TΣ1(xiμ)]=Σ[2mlnΣ21i=1m(xiμ)TΣ1(xiμ)]=Σ(2mlnΣ)+Σ[21i=1m(xiμ)TΣ1(xiμ)]

式子中的第一项,这里是行列式对矩阵求导:
∂ ( − m 2 l n ∣ Σ ∣ ) ∂ Σ = − m 2 ∂ ( l n ∣ Σ ∣ ) ∂ Σ = − m 2 1 ∣ Σ ∣ ∂ ( ∣ Σ ∣ ) ∂ Σ = − m 2 1 ∣ Σ ∣ ( ∣ Σ ∣ Σ − 1 ) T = − m 2 Σ − 1 \large \begin{aligned} \frac{\partial(- \frac{m}{2}ln|\Sigma|)}{\partial \Sigma} &= -\frac{m}{2}\frac{\partial(ln|\Sigma|)}{\partial \Sigma}\\ &= -\frac{m}{2}\frac{1}{|\Sigma|}\frac{\partial(|\Sigma|)}{\partial \Sigma}\\ &= -\frac{m}{2}\frac{1}{|\Sigma|}(|\Sigma|\Sigma^{-1})^T\\ &= -\frac{m}{2}\Sigma^{-1} \end{aligned} Σ(2mlnΣ)=2mΣ(lnΣ)=2mΣ1Σ(Σ)=2mΣ1(ΣΣ1)T=2mΣ1

式子中的第二项,这里不直接求,而用矩阵微分和 T r Tr Tr的关系来计算。由于是对 Σ \Sigma Σ的微分:
d [ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] = d    T r [ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] =    T r [ − 1 2 ∑ i = 1 m ( x i − μ ) T d Σ − 1 ( x i − μ ) ] ( T r 运 算 与 d 运 算 可 交 换 ) =    T r [ − 1 2 ∑ i = 1 m ( x i − μ ) ( x i − μ ) T d Σ − 1 ] = − 1 2 ∑ i = 1 m    T r [ ( x i − μ ) ( x i − μ ) T d Σ − 1 ] = − 1 2 ∑ i = 1 m T r [ ( ( x i − μ ) ( x i − μ ) T ) ( − Σ − 1 d Σ Σ − 1 ) ] ( N o t e 1 ) = 1 2 ∑ i = 1 m T r [ Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 d Σ ] ( N o t e 2 ) = T r [ 1 2 ∑ i = 1 m Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 d Σ ] \large \begin{aligned} &d[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]\\ &=d\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)] \\ &=\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^Td\Sigma^{-1}(x_i-\mu)] \qquad(Tr运算与d运算可交换) \\ &=\;Tr[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)(x_i-\mu)^Td\Sigma^{-1}] \\ &=-\frac{1}{2}\sum_{i=1}^m\;Tr[ (x_i-\mu)(x_i-\mu)^Td\Sigma^{-1}] \\ &=-\frac{1}{2}\sum_{i=1}^m Tr[((x_i-\mu)(x_i-\mu)^T)(-\Sigma^{-1}d\Sigma\Sigma^{-1})] \qquad (Note1)\\ &= \frac{1}{2}\sum_{i=1}^mTr[ \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma] \qquad\qquad (Note2) \\ &= Tr[\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma] \\ \end{aligned} d[21i=1m(xiμ)TΣ1(xiμ)]=dTr[21i=1m(xiμ)TΣ1(xiμ)]=Tr[21i=1m(xiμ)TdΣ1(xiμ)](Trd)=Tr[21i=1m(xiμ)(xiμ)TdΣ1]=21i=1mTr[(xiμ)(xiμ)TdΣ1]=21i=1mTr[((xiμ)(xiμ)T)(Σ1dΣΣ1)](Note1)=21i=1mTr[Σ1[(xiμ)(xiμ)T]Σ1dΣ](Note2)=Tr[21i=1mΣ1[(xiμ)(xiμ)T]Σ1dΣ]

N o t e 1 : I = Σ Σ − 1 0 = d I = d ( Σ Σ − 1 ) = ( d Σ ) Σ − 1 + Σ ( d Σ − 1 ) d Σ − 1 = − Σ − 1 ( d Σ ) Σ − 1 N o t e 2 : A = [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 d Σ ; B = Σ − 1 T r 的 固 有 性 质 : T r ( A B ) = T r ( B A ) \large \begin{aligned} Note1 : \\ I&= \Sigma\Sigma^{-1} \\ 0 &= dI = d(\Sigma\Sigma^{-1})\\ &= (d\Sigma)\Sigma^{-1}+\Sigma (d\Sigma^{-1})\\ d\Sigma^{-1} &=-\Sigma^{-1}(d\Sigma)\Sigma^{-1}\\ \\ Note2 : A &= [(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1}d\Sigma; \\ B&=\Sigma^{-1}\\ Tr的固有性质: &Tr(AB) = Tr(BA) \end{aligned} Note1:I0dΣ1Note2:ABTr:=ΣΣ1=dI=d(ΣΣ1)=(dΣ)Σ1+Σ(dΣ1)=Σ1(dΣ)Σ1=[(xiμ)(xiμ)T]Σ1dΣ;=Σ1Tr(AB)=Tr(BA)

因为
[ ( x i − μ ) ( x i − μ ) T ] 和 Σ − 1 都 是 对 称 矩 阵 ⟹ ( 1 2 ∑ i = 1 m Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 ) T = 1 2 ∑ i = 1 m Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 \large [(x_i-\mu)(x_i-\mu)^T] 和 \Sigma^{-1}都是对称矩阵 \\ \large \Longrightarrow (\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1})^T =\frac{1}{2}\sum_{i=1}^m \Sigma^{-1}[(x_i-\mu)(x_i-\mu)^T]\Sigma^{-1} [(xiμ)(xiμ)T]Σ1(21i=1mΣ1[(xiμ)(xiμ)T]Σ1)T=21i=1mΣ1[(xiμ)(xiμ)T]Σ1

由微分与矩阵,向量的关系定理则有 :
∂ [ − 1 2 ∑ i = 1 m ( x i − μ ) T Σ − 1 ( x i − μ ) ] ∂ Σ = 1 2 ∑ i = 1 m Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 \large \frac{\partial[-\frac{1}{2}\sum_{i=1}^m (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)]}{\partial \Sigma} = \frac{1}{2}\sum_{i=1}^m\Sigma^{-1}[ (x_i-\mu)(x_i-\mu)^T] \Sigma^{-1} Σ[21i=1m(xiμ)TΣ1(xiμ)]=21i=1mΣ1[(xiμ)(xiμ)T]Σ1
则:
∂ L ∂ Σ = − m 2 Σ − 1 + 1 2 ∑ i = 1 m Σ − 1 [ ( x i − μ ) ( x i − μ ) T ] Σ − 1 \large \frac{\partial L}{\partial\Sigma} = -\frac{m}{2}\Sigma^{-1} + \frac{1}{2}\sum_{i=1}^m\Sigma^{-1}[ (x_i-\mu)(x_i-\mu)^T] \Sigma^{-1} ΣL=2mΣ1+21i=1mΣ1[(xiμ)(xiμ)T]Σ1
∂ L ∂ Σ = 0 \large \frac{\partial L}{\partial\Sigma} = 0 ΣL=0,可得:
Σ = 1 m [ ∑ i = 1 m ( x i − μ ) ( x i − μ ) T ] \large \Sigma = \frac{1}{m}[\sum_{i=1}^m (x_i-\mu)(x_i-\mu)^T] Σ=m1[i=1m(xiμ)(xiμ)T]

其中这里的 μ \large \mu μ是上面估计的 μ = 1 m ∑ i = 1 m x i \large \mu= \frac{1}{m}\sum_{i=1}^mx_i μ=m1i=1mxi

参考文献或者网页

[1] 概率论与统计学2——深入理解高斯分布 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/125619927

[2] 正态分布(高斯分布)Techblog of HaoWANG-CSDN博客 https://blog.csdn.net/hhaowang/article/details/83898881?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0.pc_relevant_aa&spm=1001.2101.3001.4242.1&utm_relevant_index=3

[3] 多元高斯分布(The Multivariate normal distributionhttps://www.cnblogs.com/bingjianing/p/9117330.html

[4] 概率笔记12——多维正态分布的最大似然估计 我是8位的-CSDN博客 https://blog.csdn.net/sunbobosun56801/article/details/99753664

[5] Matrix Calculus: Derivation and Simple Application HU, Pili∗ March 30, 2012

[6] 多变量常态分布的最大似然估计 https://ccjou.wordpress.com/2014/06/12/

[7] 迹数与行列式的导数 https://ccjou.wordpress.com/2013/06/03/

[8] 多元高斯分布的协方差矩阵为什么是可逆的?https://zhuanlan.zhihu.com/p/53927925

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值