文本分类算法--朴素贝叶斯

蜡笔大龙猫

于 2017-02-21 11:33:30 发布

阅读量1.4k

点赞数

分类专栏：机器学习算法 python 文章标签：算法文本分类朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pirage/article/details/56278950

版权

机器学习算法同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

本文深入探讨了朴素贝叶斯算法，包括贝叶斯定理、算法原理、参数估计方法，以及在scikit-learn中的实现。文章强调了该算法在文本分类中的应用，并讨论了其优势（如训练和预测速度快）和局限性（如假设特征独立）。还提供了python代码示例，并推荐了相关学习资源。

摘要由CSDN通过智能技术生成

贝叶斯定理

贝叶斯定理用公式表示：

p (Y | X) = P ( X | Y ) P ( Y ) p ( X )

$p(Y|X) = \frac{P(X|Y)P(Y)}{p(X)}$

其中， $p(Y)$ 是先验概率， $P(Y|X)$ 是后验概率，也就是要求的概率。

朴素贝叶斯算法原理

朴素贝叶斯分类算法是一种生成模型。训练的过程是学习联合概率分布 $p(x, y)$ ，预测的时候使用贝叶斯法则计算条件概率 $p(y|x)$ ，选择条件概率最大的类别为最可能的预测类别。

基本方法：

假设训练数据集表示为：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

朴素贝叶斯通过训练数据集学习联合概率分布 $P(X,Y)$ ，即：
* 先验概率分布： $P(Y=c_k), k=1,2,...,K$
* 条件概率分布：

P (X = x | Y = c k) = P (x (1), . . ., x (n) | Y = c k), k = 1, 2, . . ., K

$P(X=x|Y=c_k) = P(x^{(1)}, ..., x^{(n)}|Y=c_k), k=1,2,...,K$

根据条件独立性假设，也就是为朴素贝叶斯名字的由来， $x^{(1)}$ , $x^{(2)}$ ,…, $x^{(n)}$ 之间相互独立，所以条件概率分布可以写作：

P (X = x | Y = c k) = \prod j = 1 n P (x (j)) | Y = c k

$P(X=x|Y=c_k) = \prod_{j=1}^n{P(x^{(j)})|Y=c_k}$

结合贝叶斯定理，可以得到：

P (Y = c k | X = x) = P ( Y = c k ) \prod j P ( x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( x ( j ) | Y = c k )

$P(Y=c_k|X=x) = \frac{P(Y=c_k)\prod_j{P(x^{(j)}|Y=c_k)}}{\sum_k{P(Y=c_k)}\prod_j{P(x^{(j)}|Y=c_k)}}$

所以，贝叶斯分类器为：

y = f (x) = a r g m a x c k P ( Y = c k ) \prod j P ( x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( x ( j ) | Y = c k )

$y = f(x) = {argmax}_{c_k} \frac{P(Y=c_k)\prod_j{P(x^{(j)}|Y=c_k)}}{\sum_k{P(Y=c_k)}\prod_j{P(x^{(j)}|Y=c_k)}}$

由于对不同的 $c_k$ ，分母都是相同的，所以计算的时候通常省略分母。

后验概率最大化：朴素贝叶斯将实例分到后验概率最大的类中，也就是将期望风险最小化。

参数估计：

我们采用极大似然估计计算相应的概率，那么：
1. 先验概率的极大似然估计为:

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K

$P(Y=c_k) = \frac{\sum_{i=1}^NI(y_i = c_k)}{N}, k=1,2,...,K$
2. 条件概率的极大似然估计为：

P (X (j) = a j l | Y = c k) = N * \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) N

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{N * \sum_{i=1}^NI(x_i^{(j)}=a_{jl}, y_i = c_k)}{\frac{\sum_{i=1}^NI(y_i=c_k)}{N}}$

= \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k )

$= \frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl}, y_i = c_k)}{{\sum_{i=1}^NI(y_i=c_k)}}$

变量取值： $j=1,2,...,n$ ， $l=1,2,...,S_j$ ， $k=1,2,...,K$

从公式简单的理解，求参数就是一个计数的过程。先验概率就是计算每个类别出现的次数占总训练数量的比值。条件概率就是计算每个特征和类别同事出现的次数占类别出现次数的比值。

朴素贝叶斯优缺点以及应用场景

优点：
* 一次遍历，训练速度快，预测速度也快
* 对流数据友好
* 容易实现

缺点：
* 假设特征之间独立，而实际上较难实现

NB in scikit-learn

scikit-learn中实现了三种朴素贝叶斯的方法，也就是贝叶斯的三个变种，分别为：
* Gaussian
高斯模型假设特征的分布服从高斯分布或者正态分布。

P (x j | C i) = 1 2 π σ 2 C i - - - - - \sqrt e x p (- ( x j - μ C j ) 2 2 σ 2 C i)

$P(x_j|C_i) = \frac{1}{\sqrt{2\pi{\sigma_{C_i}^2}}}exp(-\frac{(x_j - \mu{C_j})^2}{2\sigma_{C_i}^2})$

from sklearn.naive.bayes import GaussianNB

Multinomial
当训练数据分布服从多项式分布时，适合使用多项式朴素贝叶斯模型。在文本分类应用中，当考虑一篇文章中的重复词语的时候，使用多项式模型。

from sklearn.naive.bayes import MultinomialNB

Bernoulli
当训练数据分布服从二项分布时，使用伯努利模型，也就是文本分类中重复的词语视为一个出现一次，使用的模型。这种模型在垃圾邮件检测上效果很好。

from sklearn.naive.bayes import BernoulliNB

python代码实现

用python实现的朴素贝叶斯用于文本分类的代码已经上传到GITHUB上。

参考和进一步阅读

蜡笔大龙猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。