贝叶斯分类器用于文本分类: Multinomial Naïve Bayes

版權聲明

简介

贝叶斯分类器是基于贝叶斯理论的分类器,在NLP(自然语言处理)领域有着广泛的应用,如垃圾邮件检测,个人邮件排序,文本分类,色情内容检测等等。由于贝叶斯分类器是基于贝叶斯理论的,因此使用该分类器时有一个基本假设,即:数据的各特征之间是条件独立的。

假设数据集 D = { d 1 , d 2 , . . . , d n } D = \{d_1, d_2, ... , d_n\} D={ d1,d2,...,dn} 的特征集合为 X = { x 1 , x 2 , . . . , x m } X = \{x_1, x_2, ... , x_m\} X={ x1,x2,...,xm}, 类别集合为 C = { c 1 , c 2 , c k } C = \{c_1, c_2, c_k\} C={ c1,c2,ck}. 即对任意一条数据 d i d_i di,均有大小为 m m m的一维特征向量,数据 d i d_i di的类别为 c j ( ≤ j ≤ k ) c_j (\le j \le k) cj(jk). 那么 P ( x i ∣ C ) P(x_i|C) P(xiC)相互之间是条件独立的,即 P ( x 1 , x 2 , . . . , x k ∣ C ) = ∏ i = 1 k P ( x i ∣ C ) P(x_1, x_2, ... , x_k|C) = \prod_{i=1}^kP(x_i|C) P(x1,x2,...,xkC)=i=1kP(xiC).

#贝叶斯定理(Naïve Bayes Theorem)
贝叶斯定理指:对于事件A和B,它们之间的概率关系满足: (1) P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)}\tag{1} P(AB)=P(B)P(BA)P(A)(1)
贝叶斯定理说明,通常事件A在事件B(发生)的条件下的概率,与时间B在事件A的条件下的概率是不一样的,但两者之间有确定的关系,这个关系可以用贝叶斯定理来描述。

通常在数据分类的应用中,我们会替换上述公式的一些符号以方便描述。我们假设 X X X是数据的特征, C C C是数据的类别,则上式可以写成: (2) P ( C ∣ X ) = P ( X ∣ C ) P ( C ) P ( X ) P(C|X) = \frac{P(X|C)P(C)}{P(X)}\tag{2} P(CX)=P(X)P(XC)P(C)(2)
其中 P ( C ∣ X ) P(C|X) P(CX)的含义是:对于给定的一个文本,已知它的特征是 X X X,那么这个文本属于类别 C C C的概率是多少。这个值就是我们最终需要的值。

P ( C ∣ X ) P(C|X) P(CX)是贝叶斯分类器要计算出的结果,我们就是通过这个概率来确定这个文本属于哪个类别。这个概率称为后验概率(posterior probability),即我们只有在知道文本的特征 X X X之后,才会知道这个文本属于哪个类别。

P ( C ) P(C) P(C)先验概率(prior probability),表示在观察到文本的特征 X X X之前,我们就已经知道了类别 C C C概率,即这个概率跟 X X X完全无关。 P ( X ) P(X) P(X)同理。

P ( X ∣ C ) P(X|C) P(XC)称为相似度(likelihood)。这个概率表示的意思是我们已经确定了一个类别 C C C,那么在 C C C中的文本出现特征值为 X X X的概率是多少。

在实际的应用中, P ( X ∣ C ) P(X|C) P(XC) P ( C ) P(C) P(C) P ( X ) P(X) P(X)都可以直接或间接获得,或者通过估计得到。

Multinomial Naïve Bayes

贝叶斯分类器有三种,分别是Multinomial Naive Bayes, Binarized Multinomial Naive Bayes以及Bernoulli Naive Bayes. 本文讲述第一种贝叶斯分类器,该分类器主要用于文本的主题分类。Multinomial Naive Bayes中会考虑单词出现的次数,即词频(term frequency);而第二种——Binarized Multinomial Naive Bayes——不考虑词频,只考虑这个单词有没有出现,主要用于文本情绪分析。例如,一段文本提到bad这个单词,使用第二种分类器不会考虑bad出现了几次,它只关注bad这个有没有出现

Multinomial Naïve Bayes分类器算法

假设有文本数据集 D = { d 1 , d 2 , . . . , d n } D = \{d_1, d_2, ... , d_n\} D={ d1,d2,...,dn},其中 d i ( 1 ≤ i ≤ n ) d_i (1 \le i \le n) di(1in)表示第 i i i个文本,因此这个文本数据集一共有 n n n个文本。

该文本数据集 D D D有一个特征集 X = { x 1 , x 2 , . . . , x m } X = \{x_1, x_2, ... , x_m\} X={ x1,x

  • 10
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值