基于样本独立,用于极大似然法;基于属性独立,用于朴素贝叶斯。
朴素贝叶斯分类器的独立性假设,是针对所有属性而言,这个要求太强了,难以达到。弱化为:假定在类条件下所有属性相互独立,则得到半朴素贝叶斯分类器。
朴素贝叶斯分类器
前述求 P ( x ∣ c ) P(\boldsymbol{x}\,|\,c) P(x∣c)似然概率(类条件概率)是困难的,原因在于 x \boldsymbol{x} x是多属性的,实际上它是关于属性的联合概率。
假定在类条件下所有属性相互独立,则
P
(
x
∣
c
)
=
∏
i
=
1
d
P
(
x
i
∣
c
)
\begin{align} P(\boldsymbol{x}\,|\,c) =\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c) \tag{7.27} \end{align}
P(x∣c)=i=1∏dP(xi∣c)(7.27)
其中,
x
i
x_i
xi为样本
x
\boldsymbol{x}
x的第
i
i
i个属性值。
注:7.3 极大似然法中式(7.26)是基于样本独立,用于极大似然法,而式(7.27)是基于属性独立,用于朴素贝叶斯。
将式(7.27)代入贝叶斯公式【西瓜书式(7.8)】,则得到【西瓜书式(7.14)】。
再将【西瓜书式(7.14)】代入【西瓜书式(7.6)】,丢掉不含参数的因子
P
(
x
)
P(\boldsymbol{x})
P(x),得到朴素贝叶斯分类器
h
n
b
h_{\mathrm{nb}}
hnb的表达式为
h
n
b
(
x
)
=
arg
max
c
∈
Y
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
)
\begin{align} h_{\mathrm{nb}}(\boldsymbol{x}) & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c)\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c) \tag{7.28} \end{align}
hnb(x)=c∈YargmaxP(c)i=1∏dP(xi∣c)(7.28)
式(7.28)中 P ( c ) P(c) P(c)和 P ( x i ∣ c ) P({x_i}\,|\,c) P(xi∣c)都需要估计:
(1)当属性为离散时,分别由【西瓜书式(7.16)】和【西瓜书式(7.17)】估计,其平滑修正为【西瓜书式(7.19)】和【西瓜书式(7.20)】;
(2)当属性为连续时,先确定概率密度函数(假定服从某分布),如,属性服从正态分布【西瓜书式(7.18)】,再利用训练集的数据进行计算即可。
综上,朴素贝叶斯最优分类器是基于“属性条件独立性假”(即式(7.27)),其求解步骤:
(1)由【西瓜书式(7.19)】(或【西瓜书式(7.16)】)求 P ^ ( c ) \hat{P}(c) P^(c);
(2)求 P ^ ( x i ∣ c ) \hat{P}(x_i\,|\,c) P^(xi∣c),当属性为离散时,由【西瓜书式(7.20)】(或【西瓜书式(7.17)】)求;当属性为连续时,用其密度函数求,如,正态分布【西瓜书式(7.18)】;
(3)由【西瓜书式(7.14)】求 P ( c ∣ x ) P(c\,|\,\boldsymbol{x}) P(c∣x);
(4)由【西瓜书式(7.6)】得到朴素贝叶斯分类器 h n b h_{\mathrm{nb}} hnb。
半朴素贝叶斯分类器
前述朴素贝叶斯分类器的独立性假设,是针对所有属性而言,【西瓜书图7.1(a)】所示,这个要求太强了,难以达到。
考虑常见的“社会关系”:“父子关系”(子依赖于父),设属性间具有“父子关系”,以“父指向子”作有向图,则属性间的依赖关系形成“树”型结构(一棵或多棵树),为简化,我们以一棵树为例进行讨论(多棵树可视为树间是独立的,其概率为各树概率之积)。
设属性已按辈分倒排坐次:辈分越长则越排后,同辈间任意次序。 从“树”的角度看,叶子排在最前,树根排在最后。
注:排序只是为了便于推导公式,公式中用乘法的交换率则可打乱排序,即式(7.31)中并不要求排序。
将贝叶斯公式变形为
P
(
A
,
B
)
=
P
(
A
)
P
(
B
∣
A
)
\begin{align} P(A,B)=P(A)P(B\,|\,A) \tag{7.29} \end{align}
P(A,B)=P(A)P(B∣A)(7.29)
我们来看“似然”(类条件概率):
P
(
x
∣
c
)
=
P
(
x
1
,
x
2
,
⋯
,
x
d
∣
c
)
=
P
c
(
x
1
,
x
2
,
⋯
,
x
d
)
=
P
c
(
x
2
,
x
3
,
⋯
,
x
d
)
P
c
(
x
1
∣
x
2
,
⋯
,
x
d
)
(由式(7.29))
=
P
(
x
2
,
x
3
,
⋯
,
x
d
∣
c
)
P
(
x
1
∣
c
,
x
2
,
⋯
,
x
d
)
(由排坐规则知:
x
1
的“爸”
p
a
1
在
x
2
,
⋯
,
x
d
中)
=
P
(
x
2
,
x
3
,
⋯
,
x
d
∣
c
)
P
(
x
1
∣
c
,
p
a
1
)
(
x
1
仅依赖于其“爸”
p
a
1
)
=
⋯
(递归对
P
(
x
2
,
x
3
,
⋯
,
x
d
∣
c
)
用上述方法)
=
=
P
(
x
d
∣
c
)
P
(
x
d
−
1
∣
c
,
p
a
d
−
1
)
⋯
P
(
x
2
∣
c
,
p
a
2
)
P
(
x
1
∣
c
,
p
a
1
)
=
P
(
x
d
∣
c
)
∏
i
=
1
d
−
1
P
(
x
i
∣
c
,
p
a
i
)
=
∏
i
=
1
d
P
(
x
i
∣
c
,
p
a
i
)
\begin{align} P(\boldsymbol{x}\,|\,c) & =P(x_1,x_2,\cdots,x_d\,|\,c)\notag \\ & =P_c(x_1,x_2,\cdots,x_d)\notag \\ & =P_c(x_2,x_3,\cdots,x_d)P_c(x_1\,|\,x_2,\cdots,x_d)\qquad \text{(由式(7.29))}\notag \\ & =P(x_2,x_3,\cdots,x_d\,|\,c)P(x_1\,|\,c,x_2,\cdots,x_d)\notag \\ & \qquad \text{(由排坐规则知:$x_1$的“爸”$\mathrm{pa}_1$在$x_2,\cdots,x_d$中) }\notag \\ & =P(x_2,x_3,\cdots,x_d\,|\,c)P(x_1\,|\,c,\mathrm{pa}_1)\qquad \text{($x_1$仅依赖于其“爸”$\mathrm{pa}_1$) }\notag \\ & =\cdots \qquad \text{(递归对$P(x_2,x_3,\cdots,x_d\,|\,c)$用上述方法) }\notag \\ & ==P(x_d\,|\,c)P(x_{d-1}\,|\,c,\mathrm{pa}_{d-1})\cdots P(x_2\,|\,c,\mathrm{pa}_2)P(x_1\,|\,c,\mathrm{pa}_1)\notag \\ & =P(x_d\,|\,c)\mathop{\prod }\limits_{i=1}^{d-1} P(x_i\,|\,c,\mathrm{pa}_i)\tag{7.30} \\ & =\mathop{\prod }\limits_{i=1}^d P(x_i\,|\,c,\mathrm{pa}_i) \tag{7.31} \end{align}
P(x∣c)=P(x1,x2,⋯,xd∣c)=Pc(x1,x2,⋯,xd)=Pc(x2,x3,⋯,xd)Pc(x1∣x2,⋯,xd)(由式(7.29))=P(x2,x3,⋯,xd∣c)P(x1∣c,x2,⋯,xd)(由排坐规则知:x1的“爸”pa1在x2,⋯,xd中) =P(x2,x3,⋯,xd∣c)P(x1∣c,pa1)(x1仅依赖于其“爸”pa1) =⋯(递归对P(x2,x3,⋯,xd∣c)用上述方法) ==P(xd∣c)P(xd−1∣c,pad−1)⋯P(x2∣c,pa2)P(x1∣c,pa1)=P(xd∣c)i=1∏d−1P(xi∣c,pai)=i=1∏dP(xi∣c,pai)(7.30)(7.31)
其中,在式(7.30)中,设树根
x
d
x_d
xd的
p
a
d
=
T
r
u
e
\mathrm{pa}_d=\mathrm{True}
pad=True,则
P
(
x
d
∣
c
)
=
P
(
x
d
∣
c
,
p
a
d
)
P(x_d\,|\,c)=P(x_d\,|\,c,\mathrm{pa}_d)
P(xd∣c)=P(xd∣c,pad),即式(7.30)变成了式(7.31)。
进一步地:当“子”可以有多个“父”(因有养父),只要该有向图不形成环,式(7.31)仍成立(证明略)。
结合式(7.31),有
P
(
c
∣
x
)
∝
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
,
p
a
i
)
\begin{align} P(c\,|\,\boldsymbol{x}) \propto P(c)\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c,\mathrm{pa}_i) \tag{7.32} \end{align}
P(c∣x)∝P(c)i=1∏dP(xi∣c,pai)(7.32)
即为【西瓜书式(7.21)】,其中,符号
∝
\propto
∝表示“正比例于”(在优化问题中常使用符号
∝
\propto
∝,这是由于若两函数成正比,则它们会同时达到最值(最大或最小),虽然各自的最值不一样,但最值点(自变量到达的最优点)是一样的)。
现在问题归结到对
P
(
x
i
∣
c
,
p
a
i
)
P({x_i}\,|\,c,\mathrm{pa}_i)
P(xi∣c,pai)估计,参照【西瓜书式(7.20)】可得到估算式:
P
^
(
x
i
∣
c
,
p
a
i
)
=
∣
D
c
,
p
a
i
,
x
i
∣
+
1
∣
D
c
,
p
a
i
∣
+
N
i
\begin{align} \hat{P}({x_i}\,|\,c,\mathrm{pa}_i)=\frac{|D_{c,\mathrm{pa}_i,x_i}|+1}{|D_{c,\mathrm{pa}_i}|+N_i} \tag{7.33} \end{align}
P^(xi∣c,pai)=∣Dc,pai∣+Ni∣Dc,pai,xi∣+1(7.33)
综上,半朴素贝叶斯最优分类器求解步骤:
(1)由【西瓜书式(7.19)】(或【西瓜书式(7.16)】)求 P ^ ( c ) \hat{P}(c) P^(c);
(2)由式(7.33)求 P ^ ( x i ∣ c , p a i ) \hat{P}({x_i}\,|\,c,\mathrm{pa}_i) P^(xi∣c,pai);
(3)由【西瓜书式(7.21)】求 P ( c ∣ x ) P(c\,|\,\boldsymbol{x}) P(c∣x);
(4)由【西瓜书式(7.6)】得到半朴素贝叶斯分类器 h ∗ ( x ) h^*(\boldsymbol{x}) h∗(x)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.3 极大似然法(似然是什么:类条件概率)
下一篇:7.5 特殊的半朴素贝叶斯分类器(SPODE、TAN、AODE,研究特殊的“父子”关系)