文章目录
1.数据集定义
定义数据样本
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
,
其
中
x
i
∈
R
p
,
y
i
∈
R
,
其
中
x
i
=
1
,
2
,
.
.
.
,
N
D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N
D={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈Rp,yi∈R,其中xi=1,2,...,N
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
⋮
⋮
⋮
⋮
x
N
1
x
N
2
.
.
.
x
N
p
)
N
×
P
(1)
X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1
X=(x1,x2,...,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2......⋮...x1px2p⋮xNp⎠⎟⎟⎟⎞N×P(1)
Y
=
(
y
1
y
2
⋮
y
N
)
(2)
Y=\begin{pmatrix}y_1\\y_2\\\vdots\\y_N\end{pmatrix} \tag 2
Y=⎝⎜⎜⎜⎛y1y2⋮yN⎠⎟⎟⎟⎞(2)
我们的数据集可以记为
{
(
x
i
,
y
i
)
}
i
=
1
N
,
其
中
,
x
i
∈
R
p
,
y
i
∈
{
+
1
,
−
1
}
,
\{(x_i,y_i)\}_{i=1}^{N},其中,x_i \in \mathbb{R}^p,y_i \in \{+1,-1\},
{(xi,yi)}i=1N,其中,xi∈Rp,yi∈{+1,−1},,为了后续的方便,我们将样本分成两部分:
C
1
=
{
x
i
∣
y
i
=
1
,
i
=
1
,
2
,
⋯
,
N
1
}
(3)
C_1=\{x_i|y_i=1,i=1,2,\cdots,N_1\} \tag3
C1={xi∣yi=1,i=1,2,⋯,N1}(3)
C
2
=
{
x
i
∣
y
i
=
1
,
i
=
1
,
2
,
⋯
,
N
2
}
(4)
C_2=\{x_i|y_i=1,i=1,2,\cdots,N_2\} \tag4
C2={xi∣yi=1,i=1,2,⋯,N2}(4)
C
1
类
的
数
据
量
为
N
1
,
C
2
类
的
数
据
量
为
N
2
,
且
N
1
+
N
2
=
N
C_1类的数据量为N_1,C_2类的数据量为N_2,且 N_1+N_2=N
C1类的数据量为N1,C2类的数据量为N2,且N1+N2=N
2.判别模型和生成模型的区别分析
概率判别模型的目标是直接求p(y|x)的值的多少。而概率生成模型不需要求出具体的概率值大小,只需要判断p(y=0|x)和p(y=1|x)到底谁更大即可。
概
率
判
别
模
型
目
标
:
y
^
=
a
r
g
m
a
x
p
(
y
∣
x
)
y
∈
{
0
,
1
}
(5)
概率判别模型目标:\hat{y} = argmax\ p(y|x)\quad y \in \{0,1\} \tag 5
概率判别模型目标:y^=argmax p(y∣x)y∈{0,1}(5)
对于概率生成模型来说,我们可以借助贝叶斯公式进行转换,将难求的p(x|y)转换到p(y|x)p(x)上:
p
(
y
∣
x
)
=
p
(
x
∣
y
)
p
(
y
)
p
(
x
)
∝
p
(
x
∣
y
)
p
(
y
)
(6)
p(y|x)=\frac{p(x|y)p(y)}{p(x)} \propto p(x|y)p(y) \tag 6
p(y∣x)=p(x)p(x∣y)p(y)∝p(x∣y)p(y)(6)
由于上述公式中的概率p(x)与y的取值无关,所以它是一个无相关值,可以在比较大小的过程中忽略,
我们定义如下:
p
(
y
∣
x
)
→
后
验
估
计
(
P
o
s
t
e
r
i
o
r
f
u
n
c
t
i
o
n
)
(7)
p(y|x)\rightarrow 后验估计(Posterior function) \tag 7
p(y∣x)→后验估计(Posteriorfunction)(7)
p
(
y
)
→
先
验
估
计
(
P
r
i
o
r
f
u
n
c
t
i
o
n
)
(8)
p(y)\rightarrow 先验估计(Prior function) \tag 8
p(y)→先验估计(Priorfunction)(8)
p
(
x
∣
y
)
→
似
然
函
数
(
L
i
k
e
l
i
h
o
o
d
f
u
n
c
t
i
o
n
)
(9)
p(x|y)\rightarrow 似然函数(Likelihood function) \tag 9
p(x∣y)→似然函数(Likelihoodfunction)(9)
如上所述,高斯生成模型的目标总结如下:
y
^
=
a
r
g
m
a
x
y
∈
{
0
,
1
}
p
(
y
∣
x
)
∝
a
r
g
m
a
x
y
∈
{
0
,
1
}
p
(
x
∣
y
)
p
(
y
)
(10)
\hat{y}=argmax_{y\in\{0,1\}}p(y|x)\propto argmax_{y\in\{0,1\}} p(x|y)p(y) \tag{10}
y^=argmaxy∈{0,1}p(y∣x)∝argmaxy∈{0,1}p(x∣y)p(y)(10)
3.高斯判别分析(Gaussian Discriminate Analysis)的模型搭建
高斯判别分析(Gaussian Discriminate Analysis)实际上是一个概率生成模型,这里很容易通过名字误导大家。
3.1 P(Y)先验概率-伯努利分布
p
(
y
=
1
)
=
φ
y
;
y
=
1
(11)
p(y=1)=\varphi^y; \qquad y=1\tag {11}
p(y=1)=φy;y=1(11)
p
(
y
=
0
)
=
(
1
−
φ
)
1
−
y
;
y
=
0
(11)
p(y=0)=(1-\varphi)^{1-y}; \qquad y=0\tag {11}
p(y=0)=(1−φ)1−y;y=0(11)
合并上述两项:
p
(
y
)
=
φ
y
(
1
−
φ
)
1
−
y
(11)
p(y)={\varphi}^y(1-\varphi)^{1-y} \tag {11}
p(y)=φy(1−φ)1−y(11)
3.2 P(X|Y)似然函数-高斯分布
我们假设似然函数中的两个变量都服从高斯正太分布,满足期望不一样,方差一致。
N
1
(
μ
1
,
Σ
)
,
N
2
(
μ
2
,
Σ
)
N_1(\mu_1,\Sigma),N_2(\mu_2,\Sigma)
N1(μ1,Σ),N2(μ2,Σ)
p
(
x
∣
y
=
0
)
∼
N
1
(
μ
1
,
Σ
)
(12)
p(x|y=0)\sim N_1(\mu_1,\Sigma) \tag{12}
p(x∣y=0)∼N1(μ1,Σ)(12)
p
(
x
∣
y
=
1
)
∼
N
2
(
μ
2
,
Σ
)
(13)
p(x|y=1)\sim N_2(\mu_2,\Sigma) \tag{13}
p(x∣y=1)∼N2(μ2,Σ)(13)
合并上述两项:
p
(
x
∣
y
)
=
N
1
(
μ
1
,
Σ
)
y
N
2
(
μ
2
,
Σ
)
1
−
y
(14)
p(x|y)={N_1(\mu_1,\Sigma)}^yN_2(\mu_2,\Sigma)^{1-y} \tag{14}
p(x∣y)=N1(μ1,Σ)yN2(μ2,Σ)1−y(14)
3.3 极大似然法求p(x|y)p(y)值
L ( θ ) = log ∏ i = 1 N p ( x i ∣ y i ) p ( y i ) L(\theta)=\log{\prod_{i=1}^{N}p(x_i|y_i)p(y_i)} L(θ)=log∏i=1Np(xi∣yi)p(yi)
= ∑ i = 1 N log p ( x i ∣ y i ) p ( y i ) \qquad=\sum_{i=1}^{N}\log p(x_i|y_i)p(y_i) =∑i=1Nlogp(xi∣yi)p(yi)
= ∑ i = 1 N [ log p ( x i ∣ y i ) + log p ( y i ) ] \qquad=\sum_{i=1}^{N}[\log p(x_i|y_i)+\log p(y_i)] =∑i=1N[logp(xi∣yi)+logp(yi)]
= ∑ i = 1 N [ log N 1 ( μ 1 , Σ ) y i N 2 ( μ 2 , Σ ) 1 − y i + log φ y i ( 1 − φ ) 1 − y i ] \qquad=\sum_{i=1}^{N}[\log {N_1(\mu_1,\Sigma)}^{y_i}N_2(\mu_2,\Sigma)^{1-y_i}+\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}] =∑i=1N[logN1(μ1,Σ)yiN2(μ2,Σ)1−yi+logφyi(1−φ)1−yi]
=
∑
i
=
1
N
log
N
1
(
μ
1
,
Σ
)
y
i
+
∑
i
=
1
N
N
2
(
μ
2
,
Σ
)
1
−
y
i
+
∑
i
=
1
N
log
φ
y
i
(
1
−
φ
)
1
−
y
i
\qquad=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}+\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}
=∑i=1NlogN1(μ1,Σ)yi+∑i=1NN2(μ2,Σ)1−yi+∑i=1Nlogφyi(1−φ)1−yi
为方便计算,我们令:
①
=
∑
i
=
1
N
log
N
1
(
μ
1
,
Σ
)
y
i
①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}
①=∑i=1NlogN1(μ1,Σ)yi;
②
=
∑
i
=
1
N
N
2
(
μ
2
,
Σ
)
1
−
y
i
②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}
②=∑i=1NN2(μ2,Σ)1−yi;
③
=
∑
i
=
1
N
log
φ
y
i
(
1
−
φ
)
1
−
y
i
③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}
③=∑i=1Nlogφyi(1−φ)1−yi
L
(
θ
)
=
①
+
②
+
③
(15)
L(\theta)=①+②+③ \tag{15}
L(θ)=①+②+③(15)
θ
=
(
μ
1
,
μ
2
,
Σ
,
φ
)
;
θ
^
=
a
r
g
m
a
x
θ
L
(
θ
)
(16)
\theta=(\mu_1,\mu_2,\Sigma,\varphi);\quad \hat{\theta}=argmax_{\theta}L(\theta) \tag {16}
θ=(μ1,μ2,Σ,φ);θ^=argmaxθL(θ)(16)
4.极大似然估计法求相关参数值
4.1求偏导
由公式(15) , (16)可得,我们可用极大似然估计法求解相关参数,即L(θ)分别对各个参数求偏导后取零。
∂
L
(
θ
)
∂
μ
1
=
0
(17)
\frac{\partial{L(\theta)}}{\partial \mu_1}=0\tag{17}
∂μ1∂L(θ)=0(17)
∂
L
(
θ
)
∂
μ
2
=
0
(18)
\frac{\partial{L(\theta)}}{\partial \mu_2}=0\tag{18}
∂μ2∂L(θ)=0(18)
∂
L
(
θ
)
∂
Σ
=
0
(19)
\frac{\partial{L(\theta)}}{\partial \Sigma}=0\tag{19}
∂Σ∂L(θ)=0(19)
∂
L
(
θ
)
∂
φ
=
0
(20)
\frac{\partial{L(\theta)}}{\partial \varphi}=0\tag{20}
∂φ∂L(θ)=0(20)
4.2 矩阵公式
为方便计算,需要引入如下矩阵求导公式:
t
r
(
A
B
)
=
t
r
(
B
A
)
(21)
tr(AB)=tr(BA)\tag{21}
tr(AB)=tr(BA)(21)
∂
t
r
(
A
B
)
∂
A
=
B
T
(22)
\frac{\partial{tr(AB)}}{\partial A}=B^T\tag{22}
∂A∂tr(AB)=BT(22)
∂
∣
A
∣
∂
A
=
∣
A
∣
A
−
1
(23)
\frac{\partial |A|}{\partial A}=|A|A^{-1}\tag{23}
∂A∂∣A∣=∣A∣A−1(23)
∂
ln
∣
A
∣
∂
A
=
A
−
1
(24)
\frac{\partial \ln |A|}{\partial A}=A^{-1}\tag{24}
∂A∂ln∣A∣=A−1(24)
4.3 详细推导
4.3.1求 φ \varphi φ
∂
L
(
θ
)
∂
φ
=
∂
③
φ
=
0
\frac{\partial{L(\theta)}}{\partial \varphi}=\frac{\partial ③ }{\varphi} = 0
∂φ∂L(θ)=φ∂③=0
③
=
∑
i
=
1
N
log
φ
y
i
(
1
−
φ
)
1
−
y
i
=
∑
i
=
1
N
[
y
i
log
φ
+
(
1
−
y
i
)
log
(
1
−
φ
)
]
(25)
③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}=\sum_{i=1}^{N}[y_i \log \varphi+(1-y_i)\log{(1-\varphi)}] \tag{25}
③=i=1∑Nlogφyi(1−φ)1−yi=i=1∑N[yilogφ+(1−yi)log(1−φ)](25)
∂
③
∂
φ
=
∑
i
=
1
N
[
y
i
φ
+
y
i
−
1
1
−
φ
]
=
0
(26)
\frac{\partial ③}{\partial \varphi}=\sum_{i=1}^{N}[\frac{y_i}{\varphi}+\frac{y_i-1}{1-\varphi}]=0 \tag{26}
∂φ∂③=i=1∑N[φyi+1−φyi−1]=0(26)
∑
i
=
1
N
[
y
i
−
φ
y
i
+
φ
y
i
−
φ
]
=
0
(27)
\sum_{i=1}^{N}[y_i-\varphi y_i+\varphi y_i-\varphi]=0 \tag{27}
i=1∑N[yi−φyi+φyi−φ]=0(27)
∑
i
=
1
N
y
i
−
∑
i
=
1
N
φ
=
0
(28)
\sum_{i=1}^{N}y_i-\sum_{i=1}^{N}\varphi=0 \tag{28}
i=1∑Nyi−i=1∑Nφ=0(28)
φ
^
=
1
N
∑
i
=
1
N
y
i
(29)
\hat{\varphi}=\frac{1}{N}\sum_{i=1}^{N}y_i \tag{29}
φ^=N1i=1∑Nyi(29)
由于我们定义y=0的数量为
N
1
N_1
N1个,y=1的数量为
N
2
N_2
N2个
结
论
:
φ
^
=
N
1
N
(30)
结论:\hat{\varphi}=\frac{N_1}{N} \tag{30}
结论:φ^=NN1(30)
4.3.2 求 μ 1 \mu_1 μ1
∂
L
(
θ
)
∂
μ
1
=
∂
①
μ
1
=
0
(31)
\frac{\partial{L(\theta)}}{\partial \mu_1}= \frac{\partial ①}{\mu_1}=0 \tag{31}
∂μ1∂L(θ)=μ1∂①=0(31)
①
=
∑
i
=
1
N
log
N
1
(
μ
1
,
Σ
)
y
i
①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}
①=i=1∑NlogN1(μ1,Σ)yi
①
=
∑
i
=
1
N
y
i
log
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
i
−
μ
1
)
T
Σ
−
1
(
x
i
−
μ
1
)
)
(32)
①=\sum_{i=1}^{N}y_i \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{(-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1))}} \tag{32}
①=i=1∑Nyilog(2π)2p∣Σ∣211exp(−21(xi−μ1)TΣ−1(xi−μ1))(32)
①
=
∑
i
=
1
N
y
i
[
log
1
(
2
π
)
p
2
∣
Σ
∣
1
2
−
1
2
(
x
i
−
μ
1
)
T
Σ
−
1
(
x
i
−
μ
1
)
]
(33)
①=\sum_{i=1}^{N}y_i[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)]}} \tag{33}
①=i=1∑Nyi[log(2π)2p∣Σ∣211−21(xi−μ1)TΣ−1(xi−μ1)](33)
由于上式我们只关注关于
μ
1
的
相
关
项
,
故
可
简
化
上
式
为
:
\mu_1的相关项,故可简化上式为:
μ1的相关项,故可简化上式为:
①
=
∑
i
=
1
N
−
1
2
y
i
(
x
i
−
μ
1
)
T
Σ
−
1
(
x
i
−
μ
1
)
(34)
①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1) \tag{34}
①=i=1∑N−21yi(xi−μ1)TΣ−1(xi−μ1)(34)
①
=
∑
i
=
1
N
−
1
2
y
i
(
x
i
T
Σ
−
1
x
i
−
x
i
T
Σ
−
1
μ
1
−
μ
1
T
Σ
−
1
x
i
+
μ
1
T
Σ
−
1
μ
1
)
(35)
①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-x_i^T{\Sigma}^{-1}\mu_1-\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{35}
①=i=1∑N−21yi(xiTΣ−1xi−xiTΣ−1μ1−μ1TΣ−1xi+μ1TΣ−1μ1)(35)
注
:
x
i
T
维
度
:
1
×
p
;
Σ
−
1
维
度
:
p
×
p
;
μ
1
维
度
:
p
×
1
;
注:x_i^T维度:1\times p;\Sigma^{-1}维度:p \times p;\mu_1维度:p \times 1;
注:xiT维度:1×p;Σ−1维度:p×p;μ1维度:p×1;
所
以
:
x
i
T
Σ
−
1
μ
1
=
(
1
×
p
)
×
(
p
×
p
)
×
(
p
×
1
)
=
1
;
实
数
(36)
所以:x_i^T{\Sigma}^{-1}\mu_1=(1 \times p) \times (p \times p) \times(p \times 1)=1 ;实数 \tag{36}
所以:xiTΣ−1μ1=(1×p)×(p×p)×(p×1)=1;实数(36)
①
=
∑
i
=
1
N
−
1
2
y
i
(
x
i
T
Σ
−
1
x
i
−
2
μ
1
T
Σ
−
1
x
i
+
μ
1
T
Σ
−
1
μ
1
)
(37)
①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-2\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{37}
①=i=1∑N−21yi(xiTΣ−1xi−2μ1TΣ−1xi+μ1TΣ−1μ1)(37)
∂
①
∂
μ
1
=
∑
i
=
1
N
−
1
2
y
i
(
0
−
2
Σ
−
1
x
i
+
2
Σ
−
1
μ
1
)
=
0
(38)
\frac{\partial ①}{\partial \mu_1}=\sum_{i=1}^{N}-\frac{1}{2}y_i(0-2\Sigma^{-1}x_i+2\Sigma^{-1}\mu_1)=0\tag{38}
∂μ1∂①=i=1∑N−21yi(0−2Σ−1xi+2Σ−1μ1)=0(38)
∑
i
=
1
N
−
1
2
y
i
(
x
i
−
μ
1
)
=
0
(39)
\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)=0 \tag{39}
i=1∑N−21yi(xi−μ1)=0(39)
∑
i
=
1
N
(
y
i
x
i
−
y
i
μ
1
)
=
0
(40)
\sum_{i=1}^{N}(y_ix_i-y_i\mu_1)=0 \tag{40}
i=1∑N(yixi−yiμ1)=0(40)
μ
1
^
=
∑
i
=
1
N
y
i
x
i
∑
i
=
1
N
y
i
=
∑
i
=
1
N
y
i
x
i
N
1
\hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{\sum_{i=1}^{N}y_i}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1}
μ1^=∑i=1Nyi∑i=1Nyixi=N1∑i=1Nyixi
4.3.3 求 μ 2 \mu_2 μ2
∑
i
=
1
N
(
1
−
y
i
)
(
x
i
−
μ
2
)
=
0
(41)
\sum_{i=1}^{N}(1-y_i)(x_i-\mu_2)=0 \tag{41}
i=1∑N(1−yi)(xi−μ2)=0(41)
∑
i
=
1
N
(
1
−
y
i
)
x
i
−
∑
i
=
1
N
(
1
−
y
i
)
μ
2
=
0
(42)
\sum_{i=1}^{N}(1-y_i)x_i-\sum_{i=1}^{N}(1-y_i)\mu_2=0 \tag{42}
i=1∑N(1−yi)xi−i=1∑N(1−yi)μ2=0(42)
同 理 : μ 2 ^ = ∑ i = 1 N ( 1 − y i ) x i ∑ i = 1 N ( 1 − y i ) = ∑ i = 1 N ( 1 − y i ) x i N 2 (43) 同理:\hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{\sum_{i=1}^{N}(1-y_i)}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{43} 同理:μ2^=∑i=1N(1−yi)∑i=1N(1−yi)xi=N2∑i=1N(1−yi)xi(43)
4.3.4 求 Σ \Sigma Σ
极大似然估计法求解
Σ
,
由
L
(
θ
)
可
知
,
只
有
①
=
∑
i
=
1
N
log
N
1
(
μ
1
,
Σ
)
y
i
\Sigma,由L(\theta)可知,只有①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}
Σ,由L(θ)可知,只有①=∑i=1NlogN1(μ1,Σ)yi;
②
=
∑
i
=
1
N
N
2
(
μ
2
,
Σ
)
1
−
y
i
含
有
相
关
变
量
,
故
可
得
如
下
:
②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}含有相关变量,故可得如下:
②=∑i=1NN2(μ2,Σ)1−yi含有相关变量,故可得如下:
∂
①
+
②
∂
Σ
=
∂
∑
i
=
1
N
log
N
1
(
μ
1
,
Σ
)
y
i
+
∑
i
=
1
N
N
2
(
μ
2
,
Σ
)
1
−
y
i
∂
Σ
=
0
(44)
\frac{\partial ①+②}{\partial \Sigma} = \frac{\partial \sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+ \sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}}{\partial \Sigma}=0 \tag{44}
∂Σ∂①+②=∂Σ∂∑i=1NlogN1(μ1,Σ)yi+∑i=1NN2(μ2,Σ)1−yi=0(44)
为了简化计算,我们可化简如下:
Σ
^
=
a
r
g
m
a
x
[
∑
x
∈
C
1
log
N
I
(
μ
1
,
Σ
)
+
∑
x
∈
C
2
log
N
I
(
μ
2
,
Σ
)
]
(45)
\hat{\Sigma}=argmax[\sum_{x \in C_1}\log N_I(\mu_1,\Sigma)+\sum_{x \in C_2}\log N_I(\mu_2,\Sigma)]\tag{45}
Σ^=argmax[x∈C1∑logNI(μ1,Σ)+x∈C2∑logNI(μ2,Σ)](45)
我们可以用通用公式计算如下:
∑
i
=
1
N
log
N
(
μ
,
Σ
)
=
∑
i
=
1
N
[
log
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
x
p
−
1
2
(
x
i
−
μ
1
)
T
Σ
−
1
(
x
i
−
μ
1
)
]
(46)
\sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)}]} \tag{46}
i=1∑NlogN(μ,Σ)=i=1∑N[log(2π)2p∣Σ∣211exp−21(xi−μ1)TΣ−1(xi−μ1)](46)
∑
i
=
1
N
log
N
(
μ
,
Σ
)
=
∑
i
=
1
N
(
−
p
2
l
o
g
2
π
)
−
∑
i
=
1
N
1
2
log
∣
Σ
∣
−
∑
i
=
1
N
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
(47)
\sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}(-\frac{p}{2}log{2\pi})-\sum_{i=1}^{N}\frac{1}{2}\log|\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{47}
i=1∑NlogN(μ,Σ)=i=1∑N(−2plog2π)−i=1∑N21log∣Σ∣−i=1∑N21(xi−μ)TΣ−1(xi−μ)(47)
∑
i
=
1
N
log
N
(
μ
,
Σ
)
=
C
−
∑
i
=
1
N
1
2
log
∣
Σ
∣
−
∑
i
=
1
N
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
(48)
\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{48}
i=1∑NlogN(μ,Σ)=C−i=1∑N21log∣Σ∣−i=1∑N21(xi−μ)TΣ−1(xi−μ)(48)
通过维度判断,
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
是
一
维
变
量
实
数
;
故
:
(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)是一维变量实数;故:
(xi−μ)TΣ−1(xi−μ)是一维变量实数;故:
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
=
t
r
(
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
)
=
t
r
(
(
x
i
−
μ
)
T
(
x
i
−
μ
)
Σ
−
1
)
(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)=tr((x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu))=tr((x_i-\mu)^T(x_i-\mu){\Sigma}^{-1})
(xi−μ)TΣ−1(xi−μ)=tr((xi−μ)TΣ−1(xi−μ))=tr((xi−μ)T(xi−μ)Σ−1)
转化(48)可得:
∑
i
=
1
N
log
N
(
μ
,
Σ
)
=
C
−
∑
i
=
1
N
1
2
log
∣
Σ
∣
−
∑
i
=
1
N
1
2
t
r
[
(
x
i
−
μ
)
T
(
x
i
−
μ
)
Σ
−
1
]
(49)
\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}tr[(x_i-\mu)^T(x_i-\mu){\Sigma}^{-1}] \tag{49}
i=1∑NlogN(μ,Σ)=C−i=1∑N21log∣Σ∣−i=1∑N21tr[(xi−μ)T(xi−μ)Σ−1](49)
我们可以看出:
∑
i
=
1
N
(
x
i
−
μ
)
T
(
x
i
−
μ
)
=
N
i
S
i
;
其
中
S
i
表
示
样
本
方
差
,
N
i
表
示
样
本
大
小
\sum_{i=1}^{N}(x_i-\mu)^T(x_i-\mu)=N_iS_i;其中S_i表示样本方差,N_i表示样本大小
∑i=1N(xi−μ)T(xi−μ)=NiSi;其中Si表示样本方差,Ni表示样本大小
∑
i
=
1
N
log
N
(
μ
,
Σ
)
=
C
−
∑
i
=
1
N
1
2
log
∣
Σ
∣
−
N
i
2
t
r
[
S
i
Σ
−
1
]
(50)
\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\frac{N_i}{2}tr[S_i{\Sigma}^{-1}] \tag{50}
i=1∑NlogN(μ,Σ)=C−i=1∑N21log∣Σ∣−2Nitr[SiΣ−1](50)
∂
∑
i
=
1
N
log
N
(
μ
,
Σ
)
∂
Σ
=
∑
i
=
1
N
(
1
2
Σ
−
1
)
−
N
i
2
(
−
S
i
Σ
−
2
)
=
0
(51)
\frac{\partial \sum_{i=1}^{N}\log N(\mu,\Sigma)}{\partial \Sigma}=\sum_{i=1}^{N}(\frac{1}{2}{\Sigma}^{-1})-\frac{N_i}{2}(-S_i\Sigma^{-2})=0 \tag{51}
∂Σ∂∑i=1NlogN(μ,Σ)=i=1∑N(21Σ−1)−2Ni(−SiΣ−2)=0(51)
上
式
结
论
:
Σ
^
=
N
i
N
S
i
(52)
上式结论:\hat{\Sigma }=\frac{N_i}{N}S_i \tag{52}
上式结论:Σ^=NNiSi(52)
故
从
(
45
)
公
式
可
得
,
分
别
代
入
样
本
S
1
,
S
2
:
最
终
结
果
:
故从(45)公式可得,分别代入样本S_1,S_2:最终结果:
故从(45)公式可得,分别代入样本S1,S2:最终结果:
Σ
^
=
N
1
N
S
1
+
N
2
N
S
2
=
N
1
S
1
+
N
2
S
2
N
(53)
\hat{\Sigma }=\frac{N_1}{N}S_1 +\frac{N_2}{N}S_2=\frac{N_1S_1+N_2S_2}{N} \tag{53}
Σ^=NN1S1+NN2S2=NN1S1+N2S2(53)
4.4 结果总结:
φ
^
=
N
1
N
(54)
\hat{\varphi}=\frac{N_1}{N} \tag{54}
φ^=NN1(54)
μ
1
^
=
∑
i
=
1
N
y
i
x
i
N
1
(55)
\hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1}\tag{55}
μ1^=N1∑i=1Nyixi(55)
μ
2
^
=
∑
i
=
1
N
(
1
−
y
i
)
x
i
N
2
(56)
\hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{56}
μ2^=N2∑i=1N(1−yi)xi(56)
Σ
^
=
N
1
S
1
+
N
2
S
2
N
(57)
\hat{\Sigma }=\frac{N_1S_1+N_2S_2}{N} \tag{57}
Σ^=NN1S1+N2S2(57)