贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

最新推荐文章于 2024-05-14 02:31:33 发布

阿拉丁吃米粉

最新推荐文章于 2024-05-14 02:31:33 发布

阅读量1.2w

点赞数 10

文章标签：自然语言处理贝叶斯理论文本分类贝叶斯分类

本文链接：https://blog.csdn.net/jinping_shi/article/details/51771867

版权

简介

贝叶斯分类器是基于贝叶斯理论的分类器，在NLP（自然语言处理）领域有着广泛的应用，如垃圾邮件检测，个人邮件排序，文本分类，色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的，因此使用该分类器时有一个基本假设，即：数据的各特征之间是条件独立的。

假设数据集 $D = \{d_1, d_2, ... , d_n\}$ 的特征集合为 $X = \{x_1, x_2, ... , x_m\}$ ，类别集合为 $C = \{c_1, c_2, c_k\}$ . 即对任意一条数据 $d_i$ ，均有大小为 $m$ 的一维特征向量，数据 $d_i$ 的类别为 $c_j (\le j \le k)$ . 那么 $P(x_i|C)$ 相互之间是条件独立的，即 $P(x_1, x_2, ... , x_k|C) = \prod_{i=1}^kP(x_i|C)$ .

#贝叶斯定理（Naïve Bayes Theorem）
贝叶斯定理指：对于事件A和B，它们之间的概率关系满足： $\frac{P(B|A)P(A)}{P(B)}\tag{1}$
贝叶斯定理说明，通常事件A在事件B（发生）的条件下的概率，与时间B在事件A的条件下的概率是不一样的，但两者之间有确定的关系，这个关系可以用贝叶斯定理来描述。

通常在数据分类的应用中，我们会替换上述公式的一些符号以方便描述。我们假设 $X$ 是数据的特征， $C$ 是数据的类别，则上式可以写成： $\frac{P(X|C)P(C)}{P(X)}\tag{2}$
其中 $P (C ∣ X)$ 的含义是：对于给定的一个文本，已知它的特征是 $X$ ，那么这个文本属于类别 $C$ 的概率是多少。这个值就是我们最终需要的值。

$P (C ∣ X)$ 是贝叶斯分类器要计算出的结果，我们就是通过这个概率来确定这个文本属于哪个类别。这个概率称为后验概率（posterior probability），即我们只有在知道文本的特征 $X$ 之后，才会知道这个文本属于哪个类别。

$P (C)$ 是先验概率（prior probability），表示在观察到文本的特征 $X$ 之前，我们就已经知道了类别 $C$ 概率，即这个概率跟 $X$ 完全无关。 $P (X)$ 同理。

$P (X ∣ C)$ 称为相似度（likelihood）。这个概率表示的意思是我们已经确定了一个类别 $C$ ，那么在 $C$ 中的文本出现特征值为 $X$ 的概率是多少。

在实际的应用中， $P (X ∣ C)$ ， $P (C)$ 和 $P (X)$ 都可以直接或间接获得，或者通过估计得到。

Multinomial Naïve Bayes

贝叶斯分类器有三种，分别是Multinomial Naive Bayes， Binarized Multinomial Naive Bayes以及Bernoulli Naive Bayes. 本文讲述第一种贝叶斯分类器，该分类器主要用于文本的主题分类。Multinomial Naive Bayes中会考虑单词出现的次数，即词频（term frequency）；而第二种——Binarized Multinomial Naive Bayes——不考虑词频，只考虑这个单词有没有出现，主要用于文本情绪分析。例如，一段文本提到bad这个单词，使用第二种分类器不会考虑bad出现了几次，它只关注bad这个有没有出现。

Multinomial Naïve Bayes分类器算法

假设有文本数据集 $D = \{d_1, d_2, ... , d_n\}$ ，其中 $d_i (1 \le i \le n)$ 表示第 $i$ 个文本，因此这个文本数据集一共有 $n$ 个文本。

该文本数据集 $D$ 有一个特征集 $X = \{x_1, x_2, ... , x_m\}$

最低0.47元/天解锁文章

阿拉丁吃米粉

关注

10
点赞
踩
27

收藏

觉得还不错? 一键收藏
2
评论
贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

简介贝叶斯分类器是基于贝叶斯理论的分类器，在NLP（自然语言处理）领域有着广泛的应用，如垃圾邮件检测，个人邮件排序，文本分类，色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的，因此使用该分类器时有一个基本假设，即：数据的各特征之间是条件独立的。假设数据集 D={d1,d2,...,dn}D={d1,d2,...,dn}D = \{d_1, d_2, ... , d_n\} 的特...
复制链接

扫一扫