朴素贝叶斯分类算法（Naive Bayesian classification）

最新推荐文章于 2018-12-23 11:41:27 发布

fushigaoyao

最新推荐文章于 2018-12-23 11:41:27 发布

阅读量713

点赞数

本文我们将学习到：

（1）什么是朴素贝叶斯？

（2）先验概率和条件概率是如何证明的？

（3）文本分类的多项式模型和伯努利模型（附加例子说明）

（4）垃圾邮件的分类及代码的演示（暂缺以后会补上）

（1）什么是朴素贝叶斯（Naive Bayes，以后简称NB）？

首先先要区分一下：判别式模型（discriminative model）和产生式模型（generative model）

判别式模型（discriminative model）：

简单的说就是分类的最终结果是以某个函数或者是假设函数的取值范围来表示它属于那一类的，例如 H（x）> 0 就是第一类 H（x）< 0。该模型主要对p(y|x)建模，通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常，判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的，而且难以被扩展成无监督的。

产生式模型（generative model）：

该模型对观察序列的联合概率分布p(x,y)建模，在获取联合概率分布之后，可以通过贝叶斯公式得到条件概率分布。生成式模型所带的信息要比判别式模型更丰富。除此之外，生成式模型较为容易的实现增量学习。

由上可知，判别模型与生成模型的最重要的不同是，训练时的目标不同，判别模型主要优化条件概率分布，使得x,y更加对应，在分类中就是更可分。而生成模型主要是优化训练数据的联合分布概率。而同时，生成模型可以通过贝叶斯得到判别模型，但判别模型无法得到生成模型。

有了以上类条件概率，开始计算后验概率：

P(yes | d)=(3/7)³×1/14×1/14×8/11=108/184877≈0.00058417

P(no | d)= (2/9)³×2/9×2/9×3/11=32/216513≈0.00014780

比较大小，即可知道这个文档属于类别china。

2.2伯努利模型

1）基本原理

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

2）举例

使用前面例子中的数据，模型换成伯努利模型。

类yes下总共有3个文件，类no下有1个文件，训练样本文件总数为11，因此P(yes)=3/4, P(Chinese | yes)=(3+1)/(3+2)=4/5，条件概率如下：

P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5

P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5

P(Chinese|no)=(1+1)/(1+2)=2/3

P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3

P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3

有了以上类条件概率，开始计算后验概率，

P(yes|d)=P(yes)×P(Chinese|yes)×P(Japan|yes)×P(Tokyo|yes)×(1-P(Beijing|yes))×(1-P(Shanghai|yes))×(1-P(Macao|yes))=3/4×4/5×1/5×1/5×(1-2/5) ×(1-2/5)×(1-2/5)=81/15625≈0.005

P(no|d)= 1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022

因此，这个文档不属于类别china。

（4）垃圾邮件的分类及代码的演示（暂缺以后会补上）

本资源由以下单位提供：www.tengtongtie.com 福安堂傅氏膏药以黑膏药为主面向全国开展膏药招商，诚招招膏药代理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。