朴素贝叶斯分类器之原理

最新推荐文章于 2024-05-29 18:11:45 发布

li1798

最新推荐文章于 2024-05-29 18:11:45 发布

阅读量1.7k

点赞数

分类专栏：学习文章标签：朴素贝叶斯　分类器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li1798/article/details/8951472

版权

学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

朴素贝叶斯分类器之原理

１. 首先我认为想要学习朴素贝叶斯的分类器，就一定要了解贝叶斯公式：

ｐ（ｘ｜ｙ）＝ｐ（ｙ｜ｘ）ｐ（ｘ）／ｐ（ｙ）

具体的含义就不细讲了。

如果是运用在分类器中，我们假设各个单词之间是两两独立的，（也正是因为有了这个假设，才使得我们的计算变得相对简单，个人认为这也是ＮＢ会广泛应用的原因之一）。公式就变为：

ｐ（ｃｉ｜ｘ）＝ｐ（ｘ｜ｃｉ）ｐ（ｃｉ）／ｐ（ｘ）

其中，ｘ表示相对应的特征集合；ｐ（ｘ）对于所有分类均为常数，所以在实际计算中，可以忽略；ｐ（ｘ｜ｃｉ）表示分类ｃｉ条件下，特征ｘ的概率；ｐ（ｃｉ）表示类别ｃｉ在训练集中的概率。

下面将具体讲解各个变量在实际使用中的计算方法

２. 在文本分类问题中，我们假设：文本特征向量ｘ１，ｘ２．．．ｘｎ独立且同分布，所以其联合概率分布等于各个属性特征概率分布的乘积。其中，单个的ｐ（ｘｉ｜ｃ）通过统计得到。

３. 先验概率ｐ（ｃｉ）＝ｃｉ的样本数／总样本数；

为了避免ｐ（ｃｉ）＝０，我们令

ｐ（ｃｉ）＝（１＋ｃｉ的样本数）／（总样本数＋训练集中类的数目）

４. 在使用朴素贝叶斯分类器时，我认为更为重要的是，你在文本中如何选取特征，例如我们可以采用类似于ｖｓｍ的方法选取特征，利用词频，利用ＴＦＩＤＦ，利用ＴＦＤＦ，利用ＩＧ（信息增益）等等方法来提取特征。

５. 例如，我们用两种范围计算ｐ（ｘｊ｜ｃｉ）

６. ｐ（ｘｊ｜ｃｉ）＝（１＋Ｎ（ｄｏｃ（ｘｊ）｜ｃｉ））／（２＋｜Ｄｃ｜）

其中Ｎ（ｄｏｃ（ｘｊ）｜ｃｉ）表示ｃｉ类中文本中出现特征ｘｊ的文档数

７. ｐ（ｘｊ｜ｃｉ）＝（１＋ＴＦ（ｘｊ｜ｃｉ））／（｜Ｖ｜＋ＴＦ（ｘｋ｜ｃｉ）的和）

其中，｜Ｖ｜表示总特征词表中总特征数；

ＴＦ（ｘｊ｜ｃｉ）表示特征ｘｊ在类ｃｉ的所有文档中出现的频次之和

ＴＦ（ｘｋ｜ｃｉ）的和表示对于从ｋ＝１到ｋ＝ｍ的所有的特征ｘｋ在类ｃｉ中的ＴＦ之和

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯分类器之原理

朴素贝叶斯分类器之原理１. 首先我认为想要学习朴素贝叶斯的分类器，就一定要了解贝叶斯公式：ｐ（ｘ｜ｙ）＝ｐ（ｙ｜ｘ）ｐ（ｘ）／ｐ（ｙ）具体的含义就不细讲了。如果是运用在分类器中，我们假设各个单词之间是两两独立的，（也正是因为有了这个假设，才使得我们的计算变得相对简单，个人认为这也是ＮＢ会广泛应用的原因之一）。公式就变为：ｐ（ｃｉ｜ｘ）＝ｐ（ｘ｜ｃｉ）ｐ（ｃｉ）／ｐ（ｘ）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。