(《机器学习》完整版系列)第7章 贝叶斯分类器——7.4 朴素贝叶斯分类器与半朴素贝叶斯分类器(样本独立?属性独立?类条件属性独立?)

基于样本独立,用于极大似然法;基于属性独立,用于朴素贝叶斯。
朴素贝叶斯分类器的独立性假设,是针对所有属性而言,这个要求太强了,难以达到。弱化为:假定在类条件下所有属性相互独立,则得到半朴素贝叶斯分类器。

朴素贝叶斯分类器

前述求 P ( x   ∣   c ) P(\boldsymbol{x}\,|\,c) P(xc)似然概率(类条件概率)是困难的,原因在于 x \boldsymbol{x} x是多属性的,实际上它是关于属性的联合概率。

假定在类条件下所有属性相互独立,则
P ( x   ∣   c ) = ∏ i = 1 d P ( x i   ∣   c ) \begin{align} P(\boldsymbol{x}\,|\,c) =\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c) \tag{7.27} \end{align} P(xc)=i=1dP(xic)(7.27)
其中, x i x_i xi为样本 x \boldsymbol{x} x的第 i i i个属性值。
注:7.3 极大似然法中式(7.26)是基于样本独立,用于极大似然法,而式(7.27)是基于属性独立,用于朴素贝叶斯。

将式(7.27)代入贝叶斯公式【西瓜书式(7.8)】,则得到【西瓜书式(7.14)】。

再将【西瓜书式(7.14)】代入【西瓜书式(7.6)】,丢掉不含参数的因子 P ( x ) P(\boldsymbol{x}) P(x),得到朴素贝叶斯分类器 h n b h_{\mathrm{nb}} hnb的表达式为
h n b ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ) ∏ i = 1 d P ( x i   ∣   c ) \begin{align} h_{\mathrm{nb}}(\boldsymbol{x}) & =\mathop{\arg\max}\limits_{c\in \mathcal{Y}}P(c)\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c) \tag{7.28} \end{align} hnb(x)=cYargmaxP(c)i=1dP(xic)(7.28)

式(7.28)中 P ( c ) P(c) P(c) P ( x i   ∣   c ) P({x_i}\,|\,c) P(xic)都需要估计:

(1)当属性为离散时,分别由【西瓜书式(7.16)】和【西瓜书式(7.17)】估计,其平滑修正为【西瓜书式(7.19)】和【西瓜书式(7.20)】;

(2)当属性为连续时,先确定概率密度函数(假定服从某分布),如,属性服从正态分布【西瓜书式(7.18)】,再利用训练集的数据进行计算即可。

综上,朴素贝叶斯最优分类器是基于“属性条件独立性假”(即式(7.27)),其求解步骤:

(1)由【西瓜书式(7.19)】(或【西瓜书式(7.16)】)求 P ^ ( c ) \hat{P}(c) P^(c)

(2)求 P ^ ( x i   ∣   c ) \hat{P}(x_i\,|\,c) P^(xic),当属性为离散时,由【西瓜书式(7.20)】(或【西瓜书式(7.17)】)求;当属性为连续时,用其密度函数求,如,正态分布【西瓜书式(7.18)】;

(3)由【西瓜书式(7.14)】求 P ( c   ∣   x ) P(c\,|\,\boldsymbol{x}) P(cx)

(4)由【西瓜书式(7.6)】得到朴素贝叶斯分类器 h n b h_{\mathrm{nb}} hnb

半朴素贝叶斯分类器

前述朴素贝叶斯分类器的独立性假设,是针对所有属性而言,【西瓜书图7.1(a)】所示,这个要求太强了,难以达到。

考虑常见的“社会关系”:“父子关系”(子依赖于父),设属性间具有“父子关系”,以“父指向子”作有向图,则属性间的依赖关系形成“树”型结构(一棵或多棵树),为简化,我们以一棵树为例进行讨论(多棵树可视为树间是独立的,其概率为各树概率之积)。

设属性已按辈分倒排坐次:辈分越长则越排后,同辈间任意次序。 从“树”的角度看,叶子排在最前,树根排在最后。
注:排序只是为了便于推导公式,公式中用乘法的交换率则可打乱排序,即式(7.31)中并不要求排序。

将贝叶斯公式变形为
P ( A , B ) = P ( A ) P ( B   ∣   A ) \begin{align} P(A,B)=P(A)P(B\,|\,A) \tag{7.29} \end{align} P(A,B)=P(A)P(BA)(7.29)

我们来看“似然”(类条件概率):
P ( x   ∣   c ) = P ( x 1 , x 2 , ⋯   , x d   ∣   c ) = P c ( x 1 , x 2 , ⋯   , x d ) = P c ( x 2 , x 3 , ⋯   , x d ) P c ( x 1   ∣   x 2 , ⋯   , x d ) (由式(7.29)) = P ( x 2 , x 3 , ⋯   , x d   ∣   c ) P ( x 1   ∣   c , x 2 , ⋯   , x d ) (由排坐规则知: x 1 的“爸” p a 1 在 x 2 , ⋯   , x d 中)  = P ( x 2 , x 3 , ⋯   , x d   ∣   c ) P ( x 1   ∣   c , p a 1 ) ( x 1 仅依赖于其“爸” p a 1 )  = ⋯ (递归对 P ( x 2 , x 3 , ⋯   , x d   ∣   c ) 用上述方法)  = = P ( x d   ∣   c ) P ( x d − 1   ∣   c , p a d − 1 ) ⋯ P ( x 2   ∣   c , p a 2 ) P ( x 1   ∣   c , p a 1 ) = P ( x d   ∣   c ) ∏ i = 1 d − 1 P ( x i   ∣   c , p a i ) = ∏ i = 1 d P ( x i   ∣   c , p a i ) \begin{align} P(\boldsymbol{x}\,|\,c) & =P(x_1,x_2,\cdots,x_d\,|\,c)\notag \\ & =P_c(x_1,x_2,\cdots,x_d)\notag \\ & =P_c(x_2,x_3,\cdots,x_d)P_c(x_1\,|\,x_2,\cdots,x_d)\qquad \text{(由式(7.29))}\notag \\ & =P(x_2,x_3,\cdots,x_d\,|\,c)P(x_1\,|\,c,x_2,\cdots,x_d)\notag \\ & \qquad \text{(由排坐规则知:$x_1$的“爸”$\mathrm{pa}_1$在$x_2,\cdots,x_d$中) }\notag \\ & =P(x_2,x_3,\cdots,x_d\,|\,c)P(x_1\,|\,c,\mathrm{pa}_1)\qquad \text{($x_1$仅依赖于其“爸”$\mathrm{pa}_1$) }\notag \\ & =\cdots \qquad \text{(递归对$P(x_2,x_3,\cdots,x_d\,|\,c)$用上述方法) }\notag \\ & ==P(x_d\,|\,c)P(x_{d-1}\,|\,c,\mathrm{pa}_{d-1})\cdots P(x_2\,|\,c,\mathrm{pa}_2)P(x_1\,|\,c,\mathrm{pa}_1)\notag \\ & =P(x_d\,|\,c)\mathop{\prod }\limits_{i=1}^{d-1} P(x_i\,|\,c,\mathrm{pa}_i)\tag{7.30} \\ & =\mathop{\prod }\limits_{i=1}^d P(x_i\,|\,c,\mathrm{pa}_i) \tag{7.31} \end{align} P(xc)=P(x1,x2,,xdc)=Pc(x1,x2,,xd)=Pc(x2,x3,,xd)Pc(x1x2,,xd)(由式(7.29)=P(x2,x3,,xdc)P(x1c,x2,,xd)(由排坐规则知:x1pa1x2,,xd中) =P(x2,x3,,xdc)P(x1c,pa1)x1仅依赖于其pa1 =(递归对P(x2,x3,,xdc)用上述方法) ==P(xdc)P(xd1c,pad1)P(x2c,pa2)P(x1c,pa1)=P(xdc)i=1d1P(xic,pai)=i=1dP(xic,pai)(7.30)(7.31)
其中,在式(7.30)中,设树根 x d x_d xd p a d = T r u e \mathrm{pa}_d=\mathrm{True} pad=True,则 P ( x d   ∣   c ) = P ( x d   ∣   c , p a d ) P(x_d\,|\,c)=P(x_d\,|\,c,\mathrm{pa}_d) P(xdc)=P(xdc,pad),即式(7.30)变成了式(7.31)。

进一步地:当“子”可以有多个“父”(因有养父),只要该有向图不形成环,式(7.31)仍成立(证明略)。

结合式(7.31),有
P ( c   ∣   x ) ∝ P ( c ) ∏ i = 1 d P ( x i   ∣   c , p a i ) \begin{align} P(c\,|\,\boldsymbol{x}) \propto P(c)\mathop{\prod }\limits_{i=1}^dP({x_i}\,|\,c,\mathrm{pa}_i) \tag{7.32} \end{align} P(cx)P(c)i=1dP(xic,pai)(7.32)
即为【西瓜书式(7.21)】,其中,符号 ∝ \propto 表示“正比例于”(在优化问题中常使用符号 ∝ \propto ,这是由于若两函数成正比,则它们会同时达到最值(最大或最小),虽然各自的最值不一样,但最值点(自变量到达的最优点)是一样的)。

现在问题归结到对 P ( x i   ∣   c , p a i ) P({x_i}\,|\,c,\mathrm{pa}_i) P(xic,pai)估计,参照【西瓜书式(7.20)】可得到估算式:
P ^ ( x i   ∣   c , p a i ) = ∣ D c , p a i , x i ∣ + 1 ∣ D c , p a i ∣ + N i \begin{align} \hat{P}({x_i}\,|\,c,\mathrm{pa}_i)=\frac{|D_{c,\mathrm{pa}_i,x_i}|+1}{|D_{c,\mathrm{pa}_i}|+N_i} \tag{7.33} \end{align} P^(xic,pai)=Dc,pai+NiDc,pai,xi+1(7.33)

综上,半朴素贝叶斯最优分类器求解步骤:

(1)由【西瓜书式(7.19)】(或【西瓜书式(7.16)】)求 P ^ ( c ) \hat{P}(c) P^(c)

(2)由式(7.33)求 P ^ ( x i   ∣   c , p a i ) \hat{P}({x_i}\,|\,c,\mathrm{pa}_i) P^(xic,pai)

(3)由【西瓜书式(7.21)】求 P ( c   ∣   x ) P(c\,|\,\boldsymbol{x}) P(cx)

(4)由【西瓜书式(7.6)】得到半朴素贝叶斯分类器 h ∗ ( x ) h^*(\boldsymbol{x}) h(x)

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7.3 极大似然法(似然是什么:类条件概率)
下一篇:7.5 特殊的半朴素贝叶斯分类器(SPODE、TAN、AODE,研究特殊的“父子”关系)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值