用人话理解朴素贝叶斯

用文章分类解释一下朴素贝叶斯

 

公式:

  • X:文章 -----> xj:文章的词
  • 将P(X)转换成P(xj),即P(X)是特征词在词库中出现的概率
  • P(yi):这个类别的先验概率
  • P(xj|yi):在yi类别的文章中xj这个特征词出现的概率
  • P(yi|X):在这些词的前提下,文章属于类别yi的概率

如何判断这篇文章是属于yi还是y2?

比较P(y1|X)和P(y2|X)的大小,将y1和y2分别代入公式,发现P(X)是一样的,所以可以忽略,即比较

\[P\left( {​{y^{({\rm{1}})}}|X} \right) = P\left( {X|{y^{({\rm{1}})}}} \right)P\left( {​{y^{({\rm{1}})}}} \right) = P({y^{({\rm{1}})}})\prod\limits_j {P({x^{(j)}}|{y^{({\rm{1}})}})} \]

\[P\left( {​{y^{({\rm{2}})}}|X} \right) = P\left( {X|{y^{({\rm{2}})}}} \right)P\left( {​{y^{({\rm{2}})}}} \right) = P({y^{({\rm{2}})}})\prod\limits_j {P({x^{(j)}}|{y^{({\rm{2}})}})} \]

这两者的大小,哪个概率大就属于哪一类。

  • 各参数计算
  • P(yi):比如,总共1000篇文章,军事占了30篇,则 P(军事)=30/100
  • P(xj | yi):有两种计算方法,因为朴素贝叶斯有两种

      1. 多项式朴素贝叶斯

      对于这种贝叶斯,文章中的词允许重复计算,

      

      为了避免在预测的时候,预测文章中出现训练时没有的词,使得P(xj|yi)=0,所以需要平滑处理

      

      这个平滑处理是满足约束条件:概率之和等于1,因为当文章中有xj时,+1表示多加一次出现的词;当文章中没有xj时,        +1表示文章中没有出现的词也加了进去。而这两者之和,就是所有文章的词去重后的数目。这样做就可以使概率之和等        于1。1 = P(x1|yi) + P(x2|yi) + ... + P(xv|yi)

      2. 伯努利朴素贝叶斯

      文章中的词不重复计,无论出现多少次,只算一次

       

      平滑处理:

        满足: 1 = P(包含xj | yi) + P(不含xj | yi)

  • 最终计算的时候取log,将连乘变成累;因为算出来的概率很小,连乘会更小,所以需要转换。于是有:

      P({y^{({\rm{i}})}}|X) = \log P({y^{(i)}}) + \sum\limits_j {\log P({x^{(j)}}|{y^{(i)}})}

欢迎转载,转载请标明出处。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值