用文章分类解释一下朴素贝叶斯
公式:
- X:文章 -----> xj:文章的词
- 将P(X)转换成P(xj),即P(X)是特征词在词库中出现的概率
- P(yi):这个类别的先验概率
- P(xj|yi):在yi类别的文章中xj这个特征词出现的概率
- P(yi|X):在这些词的前提下,文章属于类别yi的概率
如何判断这篇文章是属于yi还是y2?
比较P(y1|X)和P(y2|X)的大小,将y1和y2分别代入公式,发现P(X)是一样的,所以可以忽略,即比较
这两者的大小,哪个概率大就属于哪一类。
- 各参数计算
- P(yi):比如,总共1000篇文章,军事占了30篇,则 P(军事)=30/100
- P(xj | yi):有两种计算方法,因为朴素贝叶斯有两种
1. 多项式朴素贝叶斯
对于这种贝叶斯,文章中的词允许重复计算,
为了避免在预测的时候,预测文章中出现训练时没有的词,使得P(xj|yi)=0,所以需要平滑处理:
这个平滑处理是满足约束条件:概率之和等于1,因为当文章中有xj时,+1表示多加一次出现的词;当文章中没有xj时, +1表示文章中没有出现的词也加了进去。而这两者之和,就是所有文章的词去重后的数目。这样做就可以使概率之和等 于1。1 = P(x1|yi) + P(x2|yi) + ... + P(xv|yi)
2. 伯努利朴素贝叶斯
文章中的词不重复计,无论出现多少次,只算一次
平滑处理:
满足: 1 = P(包含xj | yi) + P(不含xj | yi)
- 最终计算的时候取log,将连乘变成累;因为算出来的概率很小,连乘会更小,所以需要转换。于是有:
欢迎转载,转载请标明出处。