Naive Bayes分类器

粥老师

于 2018-10-19 16:40:43 发布

阅读量457

点赞数

分类专栏：机器学习文章标签：机器学习 naive bayes

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stupid_3/article/details/83184633

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Naive Bayes分类器

Naive Bayes是一个概率分类器，也就是说，在文档d中，返回所有类别c中后验概率最大的类别 $\hat{c}$ :

$\hat{c}=\text{argmax}P(c\vert d)$

回顾一下贝叶斯法则：

$P(x\vert y)=\frac{P(y\vert x)P(x)}{P(y)}$

它把任何条件概率转化成了三个概率。

其中， $P (y)$ 是先验概率或者边缘概率。

贝叶斯法则可以从条件概率的定义推导，过程如下：

$P(A\vert B) = \frac{P(A\cap B)}{P(B)}$

又，

$P(A\vert B)P(B) = P(A\cap B) = P(B\vert A)P(A)$

所以，

$P(A\vert B) = \frac{P(B\vert A)P(A)}{P(B)}$

上面第二个公式又叫做概率乘法法则。

回到之前的 $\hat{c}$ ，那么此时有：

$\hat{c}=\text{argmax}P(c\vert d)=\text{argmax}\frac{P(d\vert c)P(c)}{P(d)}$

因为 $P (d)$ 对于任何 $c$ 都是一个不变的值，所以可以省去：

$\hat{c}=\text{argmax}P(c\vert d)=\text{argmax}P(d\vert c)P(c)$

上式， $P(d\vert c)$ 叫做似然(likelihood)， $P (c)$ 即先验概率(prior probability)。

此时，假设文档 $d$ 由n个特征组成，则有：

$\hat{c}=\text{argmax}\overbrace{P(f_1,f_2,\dots,f_n\vert c)}^{\text{likelihood}}\ \overbrace{P(c)}^{\text{prior}}$

要计算上面的似然，需要很多的参数和很大的训练集，这个很难实现。

朴素贝叶斯有两个假设：

位置无关
$P(f_i\vert c)$ 条件独立，也称朴素贝叶斯假设

所以上式可以简化为：

$P(f_1,f_2,\dots,f_n\vert c)=P(f_1\vert c)P(f_2\vert c)\dots P(f_n\vert c)$

即：

$C_{NB}=\text{argmax}P(c)\prod_{f\in F}P(f\vert c)$

**词袋模型(bag of words)**不考虑词语的位置，把词语出现的频次当做特征，于是有：

$C_{NB}=\text{argmax}P(c)\prod_{i\in positions}P(w_i\vert c)$

为了避免数值下溢和提高计算速度，通常使用对数形式：

$c_{NB}=\text{argmax}\log{P(c)+\sum_{i\in positions}\log{P(w_i\vert c)}}$

训练朴素贝叶斯分类器

为了知道 $P (c)$ 和 $P(f_i\vert c)$ ，我们还是使用最大似然估计(MLE)。

有：
$\hat{P}(c)=\frac{N_c}{N_{doc}}$

$\hat{P}(w_i\vert c)=\frac{count(w_i,c)}{\sum_{w\in V}count(w,c)}$

为了避免某个概率值为0，我们使用拉普拉斯平滑(Laplace smooth or add-one smooth)：

$\hat{P}(w_i\vert c)=\frac{count(w_i,c)+1}{\sum_{w\in V}(count(w,c)+1)}=\frac{count(w_i,c)+1}{(\sum_{w\in V}count(w,c))+\vert V\vert}$

对于unknown word怎么处理呢？答案是：直接从测试数据集中移除这些词，不计算概率！

联系我

Email: stupidme.me.lzy@gmail.com
WeChat: luozhouyang0528
个人公众号，你可能会感兴趣：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。