【分类】朴素贝叶斯算法学习

最新推荐文章于 2021-05-08 17:42:25 发布

昕玫

最新推荐文章于 2021-05-08 17:42:25 发布

阅读量584

点赞数

分类专栏：大数据分析文章标签：贝叶斯算法大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hereiskxm/article/details/52047821

版权

大数据分析专栏收录该内容

16 篇文章 1 订阅

订阅专栏

有一段时间没有推演算法了，用分类算法里据说挺简单的朴素贝叶斯来练习一下。

朴素贝叶斯公式如下：

P（C/W） = P(C) * P(W/C) / P(W)

C：类别

W：文章

公式左侧：

P（C/W）：某文本属于某类别的概率

公式右侧：

P（C）：先验概率，某个类别的文本数 / 总文本数。

我理解这个值是用来总体调节概率的。比如说某个类别在训练材料中出现的频率特别低，考虑训练材料取材的真实性，我们认为这个类别在实际的环境中存在的概率也会很低。因此乘以先验概率是用来调节总体概率的。

P（W/C）： P(W/C) = P(w1, w2, w3, ... wn / C) = ∏ P(wi / C)

P(w1, w2, w3, ... wn / C) 是指一篇文章中的每一个词对于某个类别的概率。即这个类别的所有文章中，含有这个词的文章数/总文章数得出的概率。从P(w1, w2, w3, ... wn / C) 到 ∏ P(wi / C) 之间这步推演，是这个算法之所以称为”朴素贝叶斯“的原因。”朴素“指的是忽略组成一篇文章的各个词之间的影响因素，我们认为出现任何一个词的概率都是独立的，不互相影响的。因此P(w1, w2, w3, ... wn / C)等于每个词对于这个类别的概率之积，即所有词对于类别的概率组成了文章对于类别的概率。

P（W）：∑（P(W/Ci) * P(Ci)）

这篇文章出现在各个类别的概率之和。

根据这个公式我猜想，在训练的时候我们应当得到这些值：

1. 文章总数

2. 各类别的文章数目

3. 对于每个词，保存包含这个词的文章在每个类别的篇数。并对此类记录建立索引

这样在输入一个新的文章时，可以快速套用贝叶斯公式得到概率。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。