朴素贝叶斯文本分类

最新推荐文章于 2023-10-13 10:06:59 发布

云聪

最新推荐文章于 2023-10-13 10:06:59 发布

阅读量1k

点赞数 1

分类专栏：机器学习机器学习算法文章标签：机器学习朴素贝叶斯文本分类

本文链接：https://blog.csdn.net/l294265421/article/details/52295714

版权

机器学习同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

机器学习算法

13 篇文章 5 订阅

订阅专栏

基础知识
1.多项式定理
$(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n_1,n_2...n_r}^n)x_1^{n_1}x_2^{n_2}...x_r^{n_r}$

其中
$(_{n_1,n_2...n_r}^n)=\frac{n!}{n_1!n_2!...n_r!}$

类比二项式定理。

朴素贝叶斯文本分类
朴素贝叶斯分类讲了贝叶斯是怎样用来给对象分类的，但是里面有个假设：一个属性在一个对象是只出现一次，比如人的性别属性，这个假设对文本来说不成立，因为文本的属性是词，而一个词可以在一个文本中出现多次。因此，本文来推导用于文本分类的朴素贝叶斯公式。到最后，你会发现，得到的结果和朴素贝叶斯分类差不多。
设有类别c₁, c₂, …, c_|C|, 有文本d₁, d₂, …, d_m, 文档d_i的类别为：
$c=argmax_{c_j}P(c_j | d_i) = argmax_{c_j}\frac{P(d_i | c_j)P(c_j)}{P(d_i)}$

对 $P(d_i)$ 用于全概率公式有：
$P(d_i) = P(d_i \bigcap c_1) + ... + P(d_i \bigcap c_{|C|})\\=P(d_i | c_1)P(c_1) + ... + P(d_i | c_{|C|})P(c_{|C|})\\=\sum_{r=1}^{|C|}P(d_i | c_r)P(c_r)$

在得到计算 $P(d_i | c_j)$ 和 $P(c_j)$ 的公式前，给出两个假设：
（1）每一篇文档是由一个多项式分布生成的。具体来说，就是，存在词典 $V = {w_1, w_2, ..., w_{|V|}}$ , 文档 $d_i$ 的长度 $|d_i|$ ，做 $|d_i|$ 次重复试验，每次从词典V中取出一个，这些词连在一起组成文档 $d_i$ 。
（2）一个多项式分布生成的文档属于同一类，所有多项式分布一起构成一个混合文档生成模型，这个模型能够生成任何文档。

于是，一篇文档，实际上就是多项式中的一项
$(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n_1,n_2...n_r}^n)x_1^{n_1}x_2^{n_2}...x_r^{n_r}$
其中，n就是文档长度， $x_i$ 就是V中的词。

于是有：
$P(d_i | c_j) = \prod_{k=1}^{|d_i|}P(w_{d_i, k|c_j})$
其中 $w_{d_i, k}$ 是文档 $d_i$ 中k这个位置上的单词， $P(w_{d_i, k}|c_j)$ 是这个单词在类别 $c_j$ 中的概率。

$P(w_{d_i, k}|c_j)$ 可以用 $c_j$ 中单词 $w_{d_i, k}$ 出现的次数除以 $c_j$ 中所有单词出现的总次数得到，公式如下：
$P(w_{d_i, k}|c_j) = \frac{\sum_{d_i \in c_j}N_{ti}}{\sum_{s=1}^{|V|}\sum_{d_i \in c_j}N_{si}}$
其中， $N_{ti}$ 表示单词 $w_t$ 在文档 $d_i$ 中出现的次数。

$P(c_j)$ 可以用属于 $c_j$ 的文档数除以所有文档数得到，公式如下：
$P(c_j) = \frac{|c_j|}{\sum_{k=1}^{|C|}|c_k|}$
其中， $|c_j|$ 表示 $c_j$ 中文档总数。

综上，我们得到我们用于文本分类的公式：
$c=argmax_{c_j}\frac{P(c_j) \prod_{k=1}^{|d_i|}P(w_{d_i, k|c_j})}{\sum_{r=1}^{|C|}P(c_r) \prod_{k=1}^{|d_i|}P(w_{d_i, k|c_r})}$
其中， $P(c_j)$ 和 $P(w_{d_i, k|c_j})$ 的公式就没有代入了，因为代进去，公式就看不清楚了。

参考资料：
《概率论基础教程》第9版，（美）罗斯　著，童行伟，梁宝生　译
《线性代数及其应用》第3版，（美）莱（Lay,D.C.）著，刘深泉等译

云聪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
朴素贝叶斯文本分类

基础知识 1.多项式定理 (x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n_1,n_2...n_r}^n)x_1^{n_1}x_2^{n_2}...x_r^{n_r}
复制链接

扫一扫

专栏目录