朴素贝叶斯与文本分类

最新推荐文章于 2024-05-06 23:25:12 发布

jteng

最新推荐文章于 2024-05-06 23:25:12 发布

阅读量1.2w

点赞数 3

分类专栏：机器学习文章标签：朴素贝叶斯机器学习文本分类

本文链接：https://blog.csdn.net/jteng/article/details/51499363

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

朴素贝叶斯法（Naïve Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法，属于统计学分类方法。简单来说，朴素贝叶斯分类器假设在给定样本类别的条件下，样本的每个特征与其他特征均不相关，对于给定的输入，利用贝叶斯定理，求出后验概率最大的输出。朴素贝叶斯法实现简单，学习与预测的效率均较高，在文本分类领域有广泛的应用。

1. 基于贝叶斯的分类

基于概率的分类问题，就是要求使得 $P(Y|X)$ 最大的 $Y$ 的取值。设输入空间 $\cal{X} \subseteq \mathbb{R}^n$ 为 $n$ 维向量的集合， $X$ 是定义在 ${\cal X}$ 上的随机变量，输出空间为类标记集合 ${\cal Y}=\{y_1,...,y_k\}$ ， $Y$ 是定义在输出空间 ${\cal Y}$ 上的随机变量，训练数据集共有 $N$ 个样本：

T={(x1,y1),...,(xN,yN)} $T=\{(\textbf{x}_1,y_1),...,(\textbf{x}_N,y_N)\}$
根据贝叶斯定理，给定样本

x $\textbf{x}$ 的条件下，其类别取

yk $y_k$ 的概率为:

P(Y=yk|X=x)=P(X=x|Y=yk)P(Y=yk)∑jP(X=x|Y=yj)P(Y=yj) $P(Y=y_k|X=\textbf{x})=\dfrac {P(X=\textbf{x}|Y=y_k)P(Y=y_k)}{\sum_j P(X=\textbf{x}|Y=y_j)P(Y=y_j)}$
条件概率分布

P(X=x|Y=yk) $P(X=\textbf{x}|Y=y_k)$ 称为似然项，假设

x $\textbf{x}$ 的第

i $i$ 项可能取值有

Si $S_i$ 个，

Y $Y$ 可能取值有

K $K$ 个，那么要求得样本

x $\textbf{x}$ 所属类别需要估计的参数总量为

K(∏inSi−1) $K(\prod\limits_i^n{S_i}-1)$ （此处需要减1是因为条件概率的总和为1）。由此可见，直接使用贝叶斯推理的参数数量为指数级，在实际中是不可取的。

2. 朴素贝叶斯法

朴素贝叶斯法对条件概率分布做了独立性假设，极大减少了参数数量。朴素贝叶斯法假设样本的所有特征在给定所属类别的情况下相互独立，即

P (X = x | Y = y k) = = P (X (1) = x (1), . . ., X (n) = x (n) | Y = y k) \prod j = 1 n P (X (j) = x (j) | Y = y k)

$\begin{array}{l} P(X=\textbf{x}|Y=y_k)&=&P(X^{(1)}=\textbf{x}^{(1)},...,X^{(n)}=\textbf{x}^{(n)}|Y=y_k)\\ &=&\prod\limits_{j=1}^n P(X^{(j)}=\textbf{x}^{(j)}|Y=y_k) \end{array}$
其中，

x(j) $\textbf{x}^{(j)}$ 为样本

x $\textbf{x}$ 的第

j $j$ 个特征。因此，基于朴素贝叶斯假设，后验概率为：

P(Y=yk|X=x)=P(Y=yk)∏i=1nP(X(i)=x(i)|Y=yk)∑jP(Y=yj)∏i=1nP(X(i)=x(i)|Y=yj) $P(Y=y_k|X=\textbf{x})=\dfrac{P(Y=y_k)\prod\limits_{i=1}^n P(X^{(i)}=x^{(i)}|Y=y_k)}{\sum_j P(Y=y_j) \prod\limits_{i=1}^n P(X^{(i)}=x^{(i)}|Y=y_j)}$
朴素贝叶斯法学习样本的类条件概率，属于生成模型。朴素贝叶斯分类器将后验概率最大的类别作为样本的归属，因此，分类模型可表示为：

y = = a r g m a x y k P (Y = y k | X = x) a r g m a x y k P ( Y = y k ) \prod i = 1 n P ( X ( i ) = x ( i ) | Y = y k ) \sum j P ( Y = y j ) \prod i = 1 n P ( X ( i ) = x ( i ) | Y = y j )

$\begin{array}{l} y&=&\mathop{argmax}\limits_{y_k} P(Y=y_k|X=\textbf{x}) \\ &=& \mathop{argmax}\limits_{y_k} \dfrac{P(Y=y_k)\prod\limits_{i=1}^n P(X^{(i)}=x^{(i)}|Y=y_k)}{\sum_j P(Y=y_j) \prod\limits_{i=1}^n P(X^{(i)}=x^{(i)}|Y=y_j)} \end{array}$
由于上式分母的取值不依赖于样本的类属

yj $y_j$ ，于是，朴素贝叶斯分类器可简化为：

y=argmaxykP(Y=yk)∏i=1nP(X(i)=x(i)|Y=yk) $y=\mathop{argmax}\limits_{y_k} P(Y=y_k)\prod\limits_{i=1}^n P(X^{(i)}=\textbf{x}^{(i)}|Y=y_k)$
条件独立性假设是一个较强的假设，使朴素贝叶斯分类变得简单易于实现，其“朴素”一名也由此得来。但是其简单是以牺牲分类准确率为代价的，不过在实际应用中，该方法仍能取得一定的效果。

3. 朴素贝叶斯学习算法

学习朴素贝叶斯分类器，需要估计参数 $P(Y=y_k)$ 和 $P(X^{(i)}=\textbf{x}^{(i)}|Y=y_k)$ 。如果输入 $X$ 为离散值，其参数通常采用极大似然法来估计。先验概率的极大似然估计为：

P(Y=yk)=N(Y=yk)N $P(Y=y_k)=\dfrac{N(Y=y_k)}{N}$

N(Y=yk) $N(Y=y_k)$ 表示取值为

yk $y_k$ 的样本个数。假设输入的第

i $i$ 个特征

X(i) $X^{(i)}$ 可能取值为

xij $x_{ij}$ ，那么条件概率

P(X(i)=xij|Y=yk) $P(X^{(i)}=x_{ij}|Y=y_k)$ 的极大似然估计为：

P(X(i)=xij|Y=yk)=N(X(i)=xij,Y=yk)N(Y=yk) $P(X^{(i)}=x_{ij}|Y=y_k)=\dfrac{N(X^{(i)}=x_{ij},Y=y_k)}{N(Y=y_k)}$
然而，采用极大似然估计存在的一个问题是，如果训练样本中某一个特征的取值不存在，其条件概率就为0，进而导致后验概率为0，影响分类准确度。解决该问题的方法是采用平滑估计，即在随机变量各个取值的频数上加上一个平滑因子，假设平滑因子在随机变量所有取值上是均等的，那么平滑估计为：

P(X(i)=xij|Y=yk)=N(X(i)=xij,Y=yk)+λN(Y=yk)+λJ $P(X^{(i)}=x_{ij}|Y=y_k)=\dfrac{N(X^{(i)}=x_{ij},Y=y_k)+\lambda}{N(Y=y_k)+\lambda J}$

J $J$ 为

X(i) $X^{(i)}$ 的所有可能取值的个数，

λ $\lambda$ 为平滑的程度，通常取

λ=1 $\lambda=1$ ，此时该平滑称为拉普拉斯平滑。
如果输入

X $X$ 为连续值，对条件概率

P(X(i)=x(i)|Y=yk) $P(X^{(i)}=\textbf{x} ^{(i)}|Y=y_k)$ 的估计就不能采用计数的方式了。常用的方法是给定类属

yk $y_k$ ，假设变量

X(i) $X^{(i)}$ 服从高斯分布，其均值和方差可用训练样本的均值和方差来估计。

4. 文本分类应用

文本数据的一个典型特征就是其维度较大，比如一篇文档，会有几千甚至上万个词，但是不同类型或主题的文档所用词汇差距较大，可以不考虑词汇出现的顺序，即采用bag of words模型，假设文本中每个词的出现都是独立的。基于此类假设的文本分类问题，可以采用朴素贝叶斯方法进行求解。
以下例子取自《信息检索导论》一书，有训练集和测试集如下：

$\quad$	文档ID	文档中的词	属于 $c=China$ 类
训练集	1	Chinese Beijing Chinese	Yes
	2	Chinese Chinese Shanghai	Yes
	3	Chinese Macao	Yes
	4	Tokyo Japan Chinese	No
测试集	5	Chinese Chinese Chinese Tokyo Japan	?

现在要判断测试集的数据是否属于China类。首先由训练集数据计算先验概率及类条件概率。
$P(c)=3/4$ , $\quad P(\overline{c})=1/4$
注意到，Tokyo、Japan在训练集的China类中没有出现，其条件概率就为0，会影响到测试集类别的估计，因此，我们采用拉普拉斯平滑，各类中每个词出现的概率计算如下：
$P(Chinese|c) = (5+1)/(8+6) = 3/7$
$P(Tokyo|c) =P(Japan|c)= (0+1)/(8+6) = 1/14$
$P(Chinese|\overline{c}) = (1+1)/(3+6) = 2/9$
$P(Tokyo|\overline{c}) =P(Japan|\overline{c})= (1+1)/(3+6) = 2/9$
然后，计算测试集数据属于各类别的概率：

P (c | d 5) \propto = P (c) \cdot P (C h i n e s e | c) 3 \cdot P (T o k y o | c) \cdot P (J a p a n | c) 3 4 \cdot (3 7) 3 \cdot 1 14 \cdot 1 14 = 0.0003

$\begin{array}{} P(c|d_5)&\propto& P(c) \cdot P(Chinese|c)^3 \cdot P(Tokyo|c) \cdot P(Japan|c)\\ &=& \dfrac{3}{4} \cdot {(\dfrac{3}{7})}^3 \cdot \dfrac{1}{14} \cdot \dfrac{1}{14} = 0.0003 \end{array}$

P (c ¯ | d 5) \propto = P (c ¯) \cdot P (C h i n e s e | c ¯) 3 \cdot P (T o k y o | c ¯) \cdot P (J a p a n | c ¯) 1 4 \cdot (2 9) 3 \cdot 2 9 \cdot 2 9 = 0.0001

$\begin{array}{} P(\overline{c}|d_5)&\propto& P(\overline{c}) \cdot P(Chinese|\overline{c})^3 \cdot P(Tokyo|\overline{c}) \cdot P(Japan|\overline{c})\\ &=& \dfrac{1}{4} \cdot {(\dfrac{2}{9})}^3 \cdot \dfrac{2}{9} \cdot \dfrac{2}{9} = 0.0001 \end{array}$
于是，分类器会将测试集数据归于China类。

5. 总结

本文详述了朴素贝叶斯分类方法，并以一个简单的文本分类为例介绍其应用。朴素贝叶斯的朴素体现在对各个特征的独立性假设，加上独立性假设后，大大减少了参数假设空间，其学习与预测大为简化。
尽管条件独立性假设很朴素，但是朴素贝叶斯分类器的分类效果依然很好，即使各特征之间存在较强的相关性。The Optimality of Naïve Bayes一文给出了一种解释，简述如下：特征之间的相关性可能在不同类别中均匀分布，不同特征的相关性可能相互抵消，因此，独立性假设会改变分类的后验概率大小，但不会改变其相对大小，所以不会影响分类结果。

jteng

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯与文本分类

朴素贝叶斯法（Naïve Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法，属于统计学分类方法。简单来说，朴素贝叶斯分类器假设在给定样本类别的条件下，样本的每个特征与其他特征均不相关，对于给定的输入，利用贝叶斯定理，求出后验概率最大的输出。朴素贝叶斯法实现简单，学习与预测的效率均较高，在文本分类领域有广泛的应用。
复制链接

扫一扫

专栏目录