8-线性分类-高斯判别分析

1.数据集定义

定义数据样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } , 其 中 x i ∈ R p , y i ∈ R , 其 中 x i = 1 , 2 , . . . , N D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N D={(x1,y1),(x2,y2),...,(xN,yN)},xiRp,yiR,xi=1,2,...,N
X = ( x 1 , x 2 , . . . , x N ) T = ( x 1 T x 2 T ⋮ x N T ) = ( x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 . . . x N p ) N × P (1) X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1 X=(x1,x2,...,xN)T=x1Tx2TxNT=x11x21xN1x12x22xN2.........x1px2pxNpN×P(1)
Y = ( y 1 y 2 ⋮ y N ) (2) Y=\begin{pmatrix}y_1\\y_2\\\vdots\\y_N\end{pmatrix} \tag 2 Y=y1y2yN(2)
我们的数据集可以记为 { ( x i , y i ) } i = 1 N , 其 中 , x i ∈ R p , y i ∈ { + 1 , − 1 } , \{(x_i,y_i)\}_{i=1}^{N},其中,x_i \in \mathbb{R}^p,y_i \in \{+1,-1\}, {(xi,yi)}i=1N,xiRp,yi{+1,1},,为了后续的方便,我们将样本分成两部分:
C 1 = { x i ∣ y i = 1 , i = 1 , 2 , ⋯   , N 1 } (3) C_1=\{x_i|y_i=1,i=1,2,\cdots,N_1\} \tag3 C1={xiyi=1,i=1,2,,N1}(3)
C 2 = { x i ∣ y i = 1 , i = 1 , 2 , ⋯   , N 2 } (4) C_2=\{x_i|y_i=1,i=1,2,\cdots,N_2\} \tag4 C2={xiyi=1,i=1,2,,N2}(4)
C 1 类 的 数 据 量 为 N 1 , C 2 类 的 数 据 量 为 N 2 , 且 N 1 + N 2 = N C_1类的数据量为N_1,C_2类的数据量为N_2,且 N_1+N_2=N C1N1,C2N2,N1+N2=N

2.判别模型和生成模型的区别分析

概率判别模型的目标是直接求p(y|x)的值的多少。而概率生成模型不需要求出具体的概率值大小,只需要判断p(y=0|x)和p(y=1|x)到底谁更大即可。
概 率 判 别 模 型 目 标 : y ^ = a r g m a x   p ( y ∣ x ) y ∈ { 0 , 1 } (5) 概率判别模型目标:\hat{y} = argmax\ p(y|x)\quad y \in \{0,1\} \tag 5 y^=argmax p(yx)y{0,1}(5)
对于概率生成模型来说,我们可以借助贝叶斯公式进行转换,将难求的p(x|y)转换到p(y|x)p(x)上:
p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x ) ∝ p ( x ∣ y ) p ( y ) (6) p(y|x)=\frac{p(x|y)p(y)}{p(x)} \propto p(x|y)p(y) \tag 6 p(yx)=p(x)p(xy)p(y)p(xy)p(y)(6)
由于上述公式中的概率p(x)与y的取值无关,所以它是一个无相关值,可以在比较大小的过程中忽略,
我们定义如下:
p ( y ∣ x ) → 后 验 估 计 ( P o s t e r i o r f u n c t i o n ) (7) p(y|x)\rightarrow 后验估计(Posterior function) \tag 7 p(yx)(Posteriorfunction)(7)
p ( y ) → 先 验 估 计 ( P r i o r f u n c t i o n ) (8) p(y)\rightarrow 先验估计(Prior function) \tag 8 p(y)(Priorfunction)(8)
p ( x ∣ y ) → 似 然 函 数 ( L i k e l i h o o d f u n c t i o n ) (9) p(x|y)\rightarrow 似然函数(Likelihood function) \tag 9 p(xy)(Likelihoodfunction)(9)
如上所述,高斯生成模型的目标总结如下:
y ^ = a r g m a x y ∈ { 0 , 1 } p ( y ∣ x ) ∝ a r g m a x y ∈ { 0 , 1 } p ( x ∣ y ) p ( y ) (10) \hat{y}=argmax_{y\in\{0,1\}}p(y|x)\propto argmax_{y\in\{0,1\}} p(x|y)p(y) \tag{10} y^=argmaxy{0,1}p(yx)argmaxy{0,1}p(xy)p(y)(10)

3.高斯判别分析(Gaussian Discriminate Analysis)的模型搭建

高斯判别分析(Gaussian Discriminate Analysis)实际上是一个概率生成模型,这里很容易通过名字误导大家。
在这里插入图片描述

3.1 P(Y)先验概率-伯努利分布

在这里插入图片描述
p ( y = 1 ) = φ y ; y = 1 (11) p(y=1)=\varphi^y; \qquad y=1\tag {11} p(y=1)=φy;y=1(11)
p ( y = 0 ) = ( 1 − φ ) 1 − y ; y = 0 (11) p(y=0)=(1-\varphi)^{1-y}; \qquad y=0\tag {11} p(y=0)=(1φ)1y;y=0(11)
合并上述两项:
p ( y ) = φ y ( 1 − φ ) 1 − y (11) p(y)={\varphi}^y(1-\varphi)^{1-y} \tag {11} p(y)=φy(1φ)1y(11)

3.2 P(X|Y)似然函数-高斯分布

我们假设似然函数中的两个变量都服从高斯正太分布,满足期望不一样,方差一致。 N 1 ( μ 1 , Σ ) , N 2 ( μ 2 , Σ ) N_1(\mu_1,\Sigma),N_2(\mu_2,\Sigma) N1(μ1,Σ),N2(μ2,Σ)
p ( x ∣ y = 0 ) ∼ N 1 ( μ 1 , Σ ) (12) p(x|y=0)\sim N_1(\mu_1,\Sigma) \tag{12} p(xy=0)N1(μ1,Σ)(12)
p ( x ∣ y = 1 ) ∼ N 2 ( μ 2 , Σ ) (13) p(x|y=1)\sim N_2(\mu_2,\Sigma) \tag{13} p(xy=1)N2(μ2,Σ)(13)
合并上述两项:
p ( x ∣ y ) = N 1 ( μ 1 , Σ ) y N 2 ( μ 2 , Σ ) 1 − y (14) p(x|y)={N_1(\mu_1,\Sigma)}^yN_2(\mu_2,\Sigma)^{1-y} \tag{14} p(xy)=N1(μ1,Σ)yN2(μ2,Σ)1y(14)

3.3 极大似然法求p(x|y)p(y)值

L ( θ ) = log ⁡ ∏ i = 1 N p ( x i ∣ y i ) p ( y i ) L(\theta)=\log{\prod_{i=1}^{N}p(x_i|y_i)p(y_i)} L(θ)=logi=1Np(xiyi)p(yi)

= ∑ i = 1 N log ⁡ p ( x i ∣ y i ) p ( y i ) \qquad=\sum_{i=1}^{N}\log p(x_i|y_i)p(y_i) =i=1Nlogp(xiyi)p(yi)

= ∑ i = 1 N [ log ⁡ p ( x i ∣ y i ) + log ⁡ p ( y i ) ] \qquad=\sum_{i=1}^{N}[\log p(x_i|y_i)+\log p(y_i)] =i=1N[logp(xiyi)+logp(yi)]

= ∑ i = 1 N [ log ⁡ N 1 ( μ 1 , Σ ) y i N 2 ( μ 2 , Σ ) 1 − y i + log ⁡ φ y i ( 1 − φ ) 1 − y i ] \qquad=\sum_{i=1}^{N}[\log {N_1(\mu_1,\Sigma)}^{y_i}N_2(\mu_2,\Sigma)^{1-y_i}+\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}] =i=1N[logN1(μ1,Σ)yiN2(μ2,Σ)1yi+logφyi(1φ)1yi]

= ∑ i = 1 N log ⁡ N 1 ( μ 1 , Σ ) y i + ∑ i = 1 N N 2 ( μ 2 , Σ ) 1 − y i + ∑ i = 1 N log ⁡ φ y i ( 1 − φ ) 1 − y i \qquad=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}+\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i} =i=1NlogN1(μ1,Σ)yi+i=1NN2(μ2,Σ)1yi+i=1Nlogφyi(1φ)1yi
为方便计算,我们令:
① = ∑ i = 1 N log ⁡ N 1 ( μ 1 , Σ ) y i ①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i} =i=1NlogN1(μ1,Σ)yi; ② = ∑ i = 1 N N 2 ( μ 2 , Σ ) 1 − y i ②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i} =i=1NN2(μ2,Σ)1yi; ③ = ∑ i = 1 N log ⁡ φ y i ( 1 − φ ) 1 − y i ③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i} =i=1Nlogφyi(1φ)1yi
L ( θ ) = ① + ② + ③ (15) L(\theta)=①+②+③ \tag{15} L(θ)=++(15)
θ = ( μ 1 , μ 2 , Σ , φ ) ; θ ^ = a r g m a x θ L ( θ ) (16) \theta=(\mu_1,\mu_2,\Sigma,\varphi);\quad \hat{\theta}=argmax_{\theta}L(\theta) \tag {16} θ=(μ1,μ2,Σ,φ);θ^=argmaxθL(θ)(16)

4.极大似然估计法求相关参数值

4.1求偏导

由公式(15) , (16)可得,我们可用极大似然估计法求解相关参数,即L(θ)分别对各个参数求偏导后取零。
∂ L ( θ ) ∂ μ 1 = 0 (17) \frac{\partial{L(\theta)}}{\partial \mu_1}=0\tag{17} μ1L(θ)=0(17)
∂ L ( θ ) ∂ μ 2 = 0 (18) \frac{\partial{L(\theta)}}{\partial \mu_2}=0\tag{18} μ2L(θ)=0(18)
∂ L ( θ ) ∂ Σ = 0 (19) \frac{\partial{L(\theta)}}{\partial \Sigma}=0\tag{19} ΣL(θ)=0(19)
∂ L ( θ ) ∂ φ = 0 (20) \frac{\partial{L(\theta)}}{\partial \varphi}=0\tag{20} φL(θ)=0(20)

4.2 矩阵公式

为方便计算,需要引入如下矩阵求导公式:
t r ( A B ) = t r ( B A ) (21) tr(AB)=tr(BA)\tag{21} tr(AB)=tr(BA)(21)
∂ t r ( A B ) ∂ A = B T (22) \frac{\partial{tr(AB)}}{\partial A}=B^T\tag{22} Atr(AB)=BT(22)
∂ ∣ A ∣ ∂ A = ∣ A ∣ A − 1 (23) \frac{\partial |A|}{\partial A}=|A|A^{-1}\tag{23} AA=AA1(23)
∂ ln ⁡ ∣ A ∣ ∂ A = A − 1 (24) \frac{\partial \ln |A|}{\partial A}=A^{-1}\tag{24} AlnA=A1(24)

4.3 详细推导

4.3.1求 φ \varphi φ

∂ L ( θ ) ∂ φ = ∂ ③ φ = 0 \frac{\partial{L(\theta)}}{\partial \varphi}=\frac{\partial ③ }{\varphi} = 0 φL(θ)=φ=0
③ = ∑ i = 1 N log ⁡ φ y i ( 1 − φ ) 1 − y i = ∑ i = 1 N [ y i log ⁡ φ + ( 1 − y i ) log ⁡ ( 1 − φ ) ] (25) ③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}=\sum_{i=1}^{N}[y_i \log \varphi+(1-y_i)\log{(1-\varphi)}] \tag{25} =i=1Nlogφyi(1φ)1yi=i=1N[yilogφ+(1yi)log(1φ)](25)
∂ ③ ∂ φ = ∑ i = 1 N [ y i φ + y i − 1 1 − φ ] = 0 (26) \frac{\partial ③}{\partial \varphi}=\sum_{i=1}^{N}[\frac{y_i}{\varphi}+\frac{y_i-1}{1-\varphi}]=0 \tag{26} φ=i=1N[φyi+1φyi1]=0(26)
∑ i = 1 N [ y i − φ y i + φ y i − φ ] = 0 (27) \sum_{i=1}^{N}[y_i-\varphi y_i+\varphi y_i-\varphi]=0 \tag{27} i=1N[yiφyi+φyiφ]=0(27)
∑ i = 1 N y i − ∑ i = 1 N φ = 0 (28) \sum_{i=1}^{N}y_i-\sum_{i=1}^{N}\varphi=0 \tag{28} i=1Nyii=1Nφ=0(28)
φ ^ = 1 N ∑ i = 1 N y i (29) \hat{\varphi}=\frac{1}{N}\sum_{i=1}^{N}y_i \tag{29} φ^=N1i=1Nyi(29)
由于我们定义y=0的数量为 N 1 N_1 N1个,y=1的数量为 N 2 N_2 N2
结 论 : φ ^ = N 1 N (30) 结论:\hat{\varphi}=\frac{N_1}{N} \tag{30} φ^=NN1(30)

4.3.2 求 μ 1 \mu_1 μ1

∂ L ( θ ) ∂ μ 1 = ∂ ① μ 1 = 0 (31) \frac{\partial{L(\theta)}}{\partial \mu_1}= \frac{\partial ①}{\mu_1}=0 \tag{31} μ1L(θ)=μ1=0(31)
① = ∑ i = 1 N log ⁡ N 1 ( μ 1 , Σ ) y i ①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i} =i=1NlogN1(μ1,Σ)yi
① = ∑ i = 1 N y i log ⁡ 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ) (32) ①=\sum_{i=1}^{N}y_i \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{(-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1))}} \tag{32} =i=1Nyilog(2π)2pΣ211exp(21(xiμ1)TΣ1(xiμ1))(32)
① = ∑ i = 1 N y i [ log ⁡ 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ] (33) ①=\sum_{i=1}^{N}y_i[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)]}} \tag{33} =i=1Nyi[log(2π)2pΣ21121(xiμ1)TΣ1(xiμ1)](33)
由于上式我们只关注关于 μ 1 的 相 关 项 , 故 可 简 化 上 式 为 : \mu_1的相关项,故可简化上式为: μ1
① = ∑ i = 1 N − 1 2 y i ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) (34) ①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1) \tag{34} =i=1N21yi(xiμ1)TΣ1(xiμ1)(34)
① = ∑ i = 1 N − 1 2 y i ( x i T Σ − 1 x i − x i T Σ − 1 μ 1 − μ 1 T Σ − 1 x i + μ 1 T Σ − 1 μ 1 ) (35) ①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-x_i^T{\Sigma}^{-1}\mu_1-\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{35} =i=1N21yi(xiTΣ1xixiTΣ1μ1μ1TΣ1xi+μ1TΣ1μ1)(35)
注 : x i T 维 度 : 1 × p ; Σ − 1 维 度 : p × p ; μ 1 维 度 : p × 1 ; 注:x_i^T维度:1\times p;\Sigma^{-1}维度:p \times p;\mu_1维度:p \times 1; xiT1×p;Σ1p×p;μ1p×1;
所 以 : x i T Σ − 1 μ 1 = ( 1 × p ) × ( p × p ) × ( p × 1 ) = 1 ; 实 数 (36) 所以:x_i^T{\Sigma}^{-1}\mu_1=(1 \times p) \times (p \times p) \times(p \times 1)=1 ;实数 \tag{36} xiTΣ1μ1=(1×p)×(p×p)×(p×1)=1;(36)
① = ∑ i = 1 N − 1 2 y i ( x i T Σ − 1 x i − 2 μ 1 T Σ − 1 x i + μ 1 T Σ − 1 μ 1 ) (37) ①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-2\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{37} =i=1N21yi(xiTΣ1xi2μ1TΣ1xi+μ1TΣ1μ1)(37)
∂ ① ∂ μ 1 = ∑ i = 1 N − 1 2 y i ( 0 − 2 Σ − 1 x i + 2 Σ − 1 μ 1 ) = 0 (38) \frac{\partial ①}{\partial \mu_1}=\sum_{i=1}^{N}-\frac{1}{2}y_i(0-2\Sigma^{-1}x_i+2\Sigma^{-1}\mu_1)=0\tag{38} μ1=i=1N21yi(02Σ1xi+2Σ1μ1)=0(38)
∑ i = 1 N − 1 2 y i ( x i − μ 1 ) = 0 (39) \sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)=0 \tag{39} i=1N21yi(xiμ1)=0(39)
∑ i = 1 N ( y i x i − y i μ 1 ) = 0 (40) \sum_{i=1}^{N}(y_ix_i-y_i\mu_1)=0 \tag{40} i=1N(yixiyiμ1)=0(40)
μ 1 ^ = ∑ i = 1 N y i x i ∑ i = 1 N y i = ∑ i = 1 N y i x i N 1 \hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{\sum_{i=1}^{N}y_i}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1} μ1^=i=1Nyii=1Nyixi=N1i=1Nyixi

4.3.3 求 μ 2 \mu_2 μ2

∑ i = 1 N ( 1 − y i ) ( x i − μ 2 ) = 0 (41) \sum_{i=1}^{N}(1-y_i)(x_i-\mu_2)=0 \tag{41} i=1N(1yi)(xiμ2)=0(41)
∑ i = 1 N ( 1 − y i ) x i − ∑ i = 1 N ( 1 − y i ) μ 2 = 0 (42) \sum_{i=1}^{N}(1-y_i)x_i-\sum_{i=1}^{N}(1-y_i)\mu_2=0 \tag{42} i=1N(1yi)xii=1N(1yi)μ2=0(42)

同 理 : μ 2 ^ = ∑ i = 1 N ( 1 − y i ) x i ∑ i = 1 N ( 1 − y i ) = ∑ i = 1 N ( 1 − y i ) x i N 2 (43) 同理:\hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{\sum_{i=1}^{N}(1-y_i)}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{43} μ2^=i=1N(1yi)i=1N(1yi)xi=N2i=1N(1yi)xi(43)

4.3.4 求 Σ \Sigma Σ

极大似然估计法求解 Σ , 由 L ( θ ) 可 知 , 只 有 ① = ∑ i = 1 N log ⁡ N 1 ( μ 1 , Σ ) y i \Sigma,由L(\theta)可知,只有①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i} Σ,L(θ)=i=1NlogN1(μ1,Σ)yi; ② = ∑ i = 1 N N 2 ( μ 2 , Σ ) 1 − y i 含 有 相 关 变 量 , 故 可 得 如 下 : ②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}含有相关变量,故可得如下: =i=1NN2(μ2,Σ)1yi
∂ ① + ② ∂ Σ = ∂ ∑ i = 1 N log ⁡ N 1 ( μ 1 , Σ ) y i + ∑ i = 1 N N 2 ( μ 2 , Σ ) 1 − y i ∂ Σ = 0 (44) \frac{\partial ①+②}{\partial \Sigma} = \frac{\partial \sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+ \sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}}{\partial \Sigma}=0 \tag{44} Σ+=Σi=1NlogN1(μ1,Σ)yi+i=1NN2(μ2,Σ)1yi=0(44)
为了简化计算,我们可化简如下:
Σ ^ = a r g m a x [ ∑ x ∈ C 1 log ⁡ N I ( μ 1 , Σ ) + ∑ x ∈ C 2 log ⁡ N I ( μ 2 , Σ ) ] (45) \hat{\Sigma}=argmax[\sum_{x \in C_1}\log N_I(\mu_1,\Sigma)+\sum_{x \in C_2}\log N_I(\mu_2,\Sigma)]\tag{45} Σ^=argmax[xC1logNI(μ1,Σ)+xC2logNI(μ2,Σ)](45)
我们可以用通用公式计算如下:
∑ i = 1 N log ⁡ N ( μ , Σ ) = ∑ i = 1 N [ log ⁡ 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e x p − 1 2 ( x i − μ 1 ) T Σ − 1 ( x i − μ 1 ) ] (46) \sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)}]} \tag{46} i=1NlogN(μ,Σ)=i=1N[log(2π)2pΣ211exp21(xiμ1)TΣ1(xiμ1)](46)
∑ i = 1 N log ⁡ N ( μ , Σ ) = ∑ i = 1 N ( − p 2 l o g 2 π ) − ∑ i = 1 N 1 2 log ⁡ ∣ Σ ∣ − ∑ i = 1 N 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) (47) \sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}(-\frac{p}{2}log{2\pi})-\sum_{i=1}^{N}\frac{1}{2}\log|\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{47} i=1NlogN(μ,Σ)=i=1N(2plog2π)i=1N21logΣi=1N21(xiμ)TΣ1(xiμ)(47)
∑ i = 1 N log ⁡ N ( μ , Σ ) = C − ∑ i = 1 N 1 2 log ⁡ ∣ Σ ∣ − ∑ i = 1 N 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) (48) \sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{48} i=1NlogN(μ,Σ)=Ci=1N21logΣi=1N21(xiμ)TΣ1(xiμ)(48)
通过维度判断, ( x i − μ ) T Σ − 1 ( x i − μ ) 是 一 维 变 量 实 数 ; 故 : (x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)是一维变量实数;故: (xiμ)TΣ1(xiμ)
( x i − μ ) T Σ − 1 ( x i − μ ) = t r ( ( x i − μ ) T Σ − 1 ( x i − μ ) ) = t r ( ( x i − μ ) T ( x i − μ ) Σ − 1 ) (x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)=tr((x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu))=tr((x_i-\mu)^T(x_i-\mu){\Sigma}^{-1}) (xiμ)TΣ1(xiμ)=tr((xiμ)TΣ1(xiμ))=tr((xiμ)T(xiμ)Σ1)
转化(48)可得:
∑ i = 1 N log ⁡ N ( μ , Σ ) = C − ∑ i = 1 N 1 2 log ⁡ ∣ Σ ∣ − ∑ i = 1 N 1 2 t r [ ( x i − μ ) T ( x i − μ ) Σ − 1 ] (49) \sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}tr[(x_i-\mu)^T(x_i-\mu){\Sigma}^{-1}] \tag{49} i=1NlogN(μ,Σ)=Ci=1N21logΣi=1N21tr[(xiμ)T(xiμ)Σ1](49)
我们可以看出: ∑ i = 1 N ( x i − μ ) T ( x i − μ ) = N i S i ; 其 中 S i 表 示 样 本 方 差 , N i 表 示 样 本 大 小 \sum_{i=1}^{N}(x_i-\mu)^T(x_i-\mu)=N_iS_i;其中S_i表示样本方差,N_i表示样本大小 i=1N(xiμ)T(xiμ)=NiSi;SiNi
∑ i = 1 N log ⁡ N ( μ , Σ ) = C − ∑ i = 1 N 1 2 log ⁡ ∣ Σ ∣ − N i 2 t r [ S i Σ − 1 ] (50) \sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\frac{N_i}{2}tr[S_i{\Sigma}^{-1}] \tag{50} i=1NlogN(μ,Σ)=Ci=1N21logΣ2Nitr[SiΣ1](50)
∂ ∑ i = 1 N log ⁡ N ( μ , Σ ) ∂ Σ = ∑ i = 1 N ( 1 2 Σ − 1 ) − N i 2 ( − S i Σ − 2 ) = 0 (51) \frac{\partial \sum_{i=1}^{N}\log N(\mu,\Sigma)}{\partial \Sigma}=\sum_{i=1}^{N}(\frac{1}{2}{\Sigma}^{-1})-\frac{N_i}{2}(-S_i\Sigma^{-2})=0 \tag{51} Σi=1NlogN(μ,Σ)=i=1N(21Σ1)2Ni(SiΣ2)=0(51)
上 式 结 论 : Σ ^ = N i N S i (52) 上式结论:\hat{\Sigma }=\frac{N_i}{N}S_i \tag{52} Σ^=NNiSi(52)
故 从 ( 45 ) 公 式 可 得 , 分 别 代 入 样 本 S 1 , S 2 : 最 终 结 果 : 故从(45)公式可得,分别代入样本S_1,S_2:最终结果: (45)S1,S2
Σ ^ = N 1 N S 1 + N 2 N S 2 = N 1 S 1 + N 2 S 2 N (53) \hat{\Sigma }=\frac{N_1}{N}S_1 +\frac{N_2}{N}S_2=\frac{N_1S_1+N_2S_2}{N} \tag{53} Σ^=NN1S1+NN2S2=NN1S1+N2S2(53)

4.4 结果总结:

φ ^ = N 1 N (54) \hat{\varphi}=\frac{N_1}{N} \tag{54} φ^=NN1(54)
μ 1 ^ = ∑ i = 1 N y i x i N 1 (55) \hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1}\tag{55} μ1^=N1i=1Nyixi(55)
μ 2 ^ = ∑ i = 1 N ( 1 − y i ) x i N 2 (56) \hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{56} μ2^=N2i=1N(1yi)xi(56)
Σ ^ = N 1 S 1 + N 2 S 2 N (57) \hat{\Sigma }=\frac{N_1S_1+N_2S_2}{N} \tag{57} Σ^=NN1S1+N2S2(57)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值