机器学习——朴素贝叶斯

一、贝叶斯决策论

设输入空间 X ∈ R d \mathcal{X} \in \Bbb R^{d} XRd d d d维向量的集合,输出空间为标签集合 Y = { c 1 , c 2 , … , c N } \mathcal{Y}=\left\{c_{1}, c_{2}, \dots, c_{N} \right\} Y={c1,c2,,cN} X X X是定义在输入空间上的随机变量, Y Y Y是定义在输出空间上的随机变量, P ( X , Y ) P(X,Y) P(X,Y) X X X Y Y Y联合概率分布,训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\left\{(\boldsymbol{x}_{1}, y_{1}), (\boldsymbol{x}_{2}, y_{2}), \dots, (\boldsymbol{x}_{m}, y_{m})\right\} D={(x1,y1),(x2,y2),,(xm,ym)},由 P ( X , Y ) P(X,Y) P(X,Y)独立同分布地产生。

对于标签集合 y = { c 1 , c 2 , … , c N } \mathcal{y}=\left\{c_{1}, c_{2}, \dots, c_{N} \right\} y={c1,c2,,cN} λ i j \lambda_{ij} λij是将一个真实标记为 c j c_{j} cj的样本误分类为 c i c_{i} ci所产生的损失。将 x \boldsymbol{x} x分类为 c i c_{i} ci所产生的期望损失即条件风险为:
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R\left(c_{i} | \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} | \boldsymbol{x}\right) R(cix)=j=1NλijP(cjx)
我们的目标是最小化总体风险:
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) | \boldsymbol{x})] R(h)=Ex[R(h(x)x)]
h h h为判定准则: h : X ↦ Y h : \mathcal{X} \mapsto \mathcal{Y} h:XY

**贝叶斯判定准则:**为最小化总体风险,只需在每个样本上选择哪个能使条件风险 R ( c ∣ x ) R(c|\boldsymbol{x}) R(cx)最小的标签,即:
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y R ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x}) h(x)=cYargminR(cx)
h ∗ h^{\ast} h是贝叶斯最优分类器, R ( h ∗ ) R(h^{\ast}) R(h)是贝叶斯风险。

对于误判损失 λ i j \lambda_{ij} λij可以采用0-1损失:
λ i j = { 0 ,  if  i = j 1 ,  otherwise  \lambda_{i j}=\left\{\begin{array}{ll}{0,} & {\text { if } i=j} \\ {1,} & {\text { otherwise }}\end{array}\right. λij={0,1, if i=j otherwise 
此时条件风险可写为: R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c | \boldsymbol{x})=1-P(c | \boldsymbol{x}) R(cx)=1P(cx),最优贝叶斯分类器为:
h ∗ ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c | \boldsymbol{x}) h(x)=cYargmaxP(cx)
要得到最优分类器,首先要得到后验概率 P ( c ∣ x ) P(c | \boldsymbol{x}) P(cx)
P ( c ∣ x ) = P ( x , c ) P ( x ) P(c | \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})} P(cx)=P(x)P(x,c)
根据贝叶斯定理,上式可写为:

P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c | \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})} P(cx)=P(x)P(c)P(xc)
P ( c ) P(c) P(c)先验概率 P ( x ∣ c ) P(\boldsymbol{x}|c) P(xc)条件概率似然 P ( x ) P(\boldsymbol{x}) P(x)与标签无关,因此贝叶斯法是学习 P ( c ) P(c) P(c) P ( x ∣ c ) P(\boldsymbol{x}|c) P(xc)

  • 对于 P ( c ) P(c) P(c),根据大数定律,当训练集包含充足的独立同分布样本时, P ( c ) P(c) P(c)可以通过样本出现的频率来估计。
  • 对于 P ( x ∣ c ) P(\boldsymbol{x}|c) P(xc),有指数级的参数,样本取值可能在训练集中未出现,直接使用频率估计不可行。

二、朴素贝叶斯分类器

朴素贝叶斯采用属性条件独立假设,对已知类别,假设所有属性相互独立,即:

P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) = ∏ j = 1 d P ( x i ∣ c ) P(\boldsymbol{x}|c)=P(x_{1}, x_{2}, \dots, x_{d}|c)=\prod_{j=1}^dP(x_{i}|c) P(xc)=P(x1,x2,,xdc)=j=1dP(xic)

P ( c ∣ x ) P(c | \boldsymbol{x}) P(cx)可写为:
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c | \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})} \prod_{i=1}^{d} P\left(x_{i} | c\right) P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)
那么贝叶斯判定准则为:
h n b ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{n b}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} | c\right) hnb(x)=cYargmaxP(c)i=1dP(xic)
D c D_{c} Dc表示训练集 D D D中第 c c c类样本的集合,那么容易得先验概率为:
P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{\left|D_{c}\right|}{|D|} P(c)=DDc
再令 D c , x i D_{c,x_{i}} Dc,xi表示 D c D_{c} Dc中在第 i i i个属性上取值为 x i x_{i} xi的样本集合,那么条件概率可估计为:
P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|} P(xic)=DcDc,xi
当某个属性在训练集中没有与某个类别同时出现时,在连乘时会出现0,此时可以用拉普拉斯修正:
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P ^ ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i \begin{aligned} \hat{P}(c) &=\frac{\left|D_{c}\right|+1}{|D|+N} \\ \hat{P}\left(x_{i} | c\right) &=\frac{\left|D_{c, x_{i}}\right|+1}{\left|D_{c}\right|+N_{i}} \end{aligned} P^(c)P^(xic)=D+NDc+1=Dc+NiDc,xi+1
N N N为类别数, N i N_{i} Ni为第 i i i个属性可能的取值数目。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值