中文NLP-文本分类方法之朴素贝叶斯分类器

    朴素贝叶斯法(Naïve Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法,属于统计学分类方法。简单来说,朴素贝叶斯分类器假设在给定样本类别的条件下,样本的每个特征与其他特征均不相关,对于给定的输入,利用贝叶斯定理,求出后验概率最大的输出。朴素贝叶斯法实现简单,学习与预测的效率均较高,在文本分类领域有广泛的应用。

    1.准备知识

  • 条件概率

\[P(A|B)\]

    指事件A在事件B发生条件下发生的概率。

  • 联合概率

 \[P(AB)\]

    指事件A与事件B同时发生的概率。

  • 贝叶斯定理

    \[P(B|A)=\frac{P(A|B)P(B)}{P(A)}\]

  • 词向量

    为一段文本的向量化表示,表征文本特征。  

    2.朴素贝叶斯分类器

    对于给定的待分类文本,求解该文本出现的条件下各个类别的概率,概率最大的类别就被认为该文本的类别。简单表述如下:

1) 设

\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]

    为一个待分类文本,其中为文本中的特征词/属性。

2) 设文本类别

\[C=\left \{ {C_{1},C_{2},C_{3},...,C_{d}} \right \}\]

3) 求解文本所属类别c

    \[c=\underset{C_{d}}{argmax}P(C_{d}|x) =\underset{C_{d}}{argmax}\frac{P(C_{d})P(x|C_{d})}{P(x)} =\underset{C_{d}}{argmax}\frac{P(C_{d})}{P(x)}\prod_{i=1}^{n}P(w_{i}|d)\]

    通过训练数据,可以根据大数定理估计上式的先验概率

\[P(C_{d})\]

    而为了估计类条件概率

\[P(x|C_{d})\]

    朴素贝叶斯分类器方法假设样本的所有特征在给定所属类别的情况下相互独立也就是

\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]

    中的特征相互独立。从而利用联合概率公式计算出类条件概率如下:

    \[P(x|C_{d})=\prod_{i=1}^{n}P(w_{i}|C_{d})\]

    训练朴素贝叶斯分类器的过程,就是利用训练数据估算先验概率与类条件概率,从而在新文本输入时,利用估算的先验概率和类条件概率即可求出相应的后验概率,后验概率最大的类别即为分类结果。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值