记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
第七章的前提:所有相关概率都已知
7.1节首先定义了条件风险(公式7.1),然后把每一个样本的条件风险的数学期望表达了出来(公式7.2),然后返回来定义使得每个样本达到最小的分类器记录下来(公式7.3)。
极大似然估计
极大似然估计是要先假设参数服从一个先验分布。可以看公式(7.12)(7.13)对应的例子,他假设了概率密度函数复制高斯分布,而高斯分布形式为:
p
(
x
)
=
(
2
π
σ
2
)
−
1
2
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x)=(2\pi\sigma^2)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})
p(x)=(2πσ2)−21exp(−2σ2(x−μ)2)。因此,相当与把高斯分布的表达式代入(7.10)之中,去解(7.11)中的问题。首先代入可得:
L
L
(
θ
c
)
=
∑
x
∈
D
c
l
o
g
(
p
θ
c
(
x
)
)
=
∑
x
∈
D
c
l
o
g
(
(
2
π
σ
c
2
)
−
1
2
e
x
p
(
−
(
x
−
μ
c
)
2
2
σ
c
2
)
)
=
∑
x
∈
D
c
−
1
2
l
o
g
2
π
σ
c
2
−
(
x
−
μ
c
)
2
2
σ
c
2
LL(\theta_c)=\sum_{x\in D_c}log(p\theta_c(x))=\sum_{x\in D_c} log((2\pi\sigma^2_c)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu_c)^2}{2\sigma^2_c }))=\sum_{x\in D_c}-\dfrac{1}{2}log2\pi\sigma^2_c-\dfrac{(x-\mu_c)^2}{2\sigma^2_c }
LL(θc)=x∈Dc∑log(pθc(x))=x∈Dc∑log((2πσc2)−21exp(−2σc2(x−μc)2))=x∈Dc∑−21log2πσc2−2σc2(x−μc)2
然后是求偏导等于0:
∂
L
L
/
∂
μ
c
=
∑
x
∈
D
c
−
(
x
−
μ
c
)
/
σ
c
2
=
0
⇒
∑
x
∈
D
c
x
=
∑
x
∈
D
c
μ
c
∂
L
L
/
∂
σ
c
2
=
∑
x
∈
D
c
−
1
2
σ
c
2
+
(
x
−
μ
c
)
2
2
(
σ
c
2
)
2
=
0
⇒
∑
x
∈
D
c
σ
c
2
=
∑
x
∈
D
c
(
x
−
μ
c
)
2
\partial LL/\partial \mu_c = \sum_{x\in D_c}-(x-\mu_c)/\sigma^2_c = 0 \rArr \sum_{x\in D_c}x= \sum_{x\in D_c} \mu_c\\ \partial LL/\partial \sigma^2_c = \sum_{x\in D_c}-\dfrac{1}{2\sigma^2_c }+\dfrac{(x-\mu_c)^2}{2(\sigma^2_c)^2 }=0 \rArr \sum_{x\in D_c}\sigma^2_c= \sum_{x\in D_c} (x-\mu_c)^2\\
∂LL/∂μc=x∈Dc∑−(x−μc)/σc2=0⇒x∈Dc∑x=x∈Dc∑μc∂LL/∂σc2=x∈Dc∑−2σc21+2(σc2)2(x−μc)2=0⇒x∈Dc∑σc2=x∈Dc∑(x−μc)2
即,参数最大似然估计为:
朴素贝叶斯分类器
核心:假设所有属性相互独立,有
对于离散属性:
对于连续属性:
EM算法
在已知
x
x
x和上一步的
Θ
t
\Theta^t
Θt的条件之下,隐变量
Z
Z
Z的数学期望: