基础知识
1.多项式定理
(x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr
其中
(nn1,n2...nr)=n!n1!n2!...nr!
类比二项式定理。
朴素贝叶斯文本分类
朴素贝叶斯分类讲了贝叶斯是怎样用来给对象分类的,但是里面有个假设:一个属性在一个对象是只出现一次,比如人的性别属性,这个假设对文本来说不成立,因为文本的属性是词,而一个词可以在一个文本中出现多次。因此,本文来推导用于文本分类的朴素贝叶斯公式。到最后,你会发现,得到的结果和朴素贝叶斯分类差不多。
设有类别c1, c2, …, c|C|, 有文本d1, d2, …, dm, 文档di的类别为:
c=argmaxcjP(cj|di)=argmaxcjP(di|cj)P(cj)P(di)
对
P(di)
用于全概率公式有:
P(di)=P(di⋂c1)+...+P(di⋂c|C|)=P(di|c1)P(c1)+...+P(di|c|C|)P(c|C|)=∑|C|r=1P(di|cr)P(cr)
在得到计算
P(di|cj)
和
P(cj)
的公式前,给出两个假设:
(1)每一篇文档是由一个多项式分布生成的。具体来说,就是,存在词典
V=w1,w2,...,w|V|
, 文档
di
的长度
|di|
,做
|di|
次重复试验,每次从词典V中取出一个,这些词连在一起组成文档
di
。
(2)一个多项式分布生成的文档属于同一类,所有多项式分布一起构成一个混合文档生成模型,这个模型能够生成任何文档。
于是,一篇文档,实际上就是多项式中的一项
(x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr
其中,n就是文档长度,
xi
就是V中的词。
于是有:
P(di|cj)=∏|di|k=1P(wdi,k|cj)
其中
wdi,k
是文档
di
中k这个位置上的单词,
P(wdi,k|cj)
是这个单词在类别
cj
中的概率。
P(wdi,k|cj)
可以用
cj
中单词
wdi,k
出现的次数除以
cj
中所有单词出现的总次数得到,公式如下:
P(wdi,k|cj)=∑di∈cjNti∑|V|s=1∑di∈cjNsi
其中,
Nti
表示单词
wt
在文档
di
中出现的次数。
P(cj)
可以用属于
cj
的文档数除以所有文档数得到,公式如下:
P(cj)=|cj|∑|C|k=1|ck|
其中,
|cj|
表示
cj
中文档总数。
综上,我们得到我们用于文本分类的公式:
c=argmaxcjP(cj)∏|di|k=1P(wdi,k|cj)∑|C|r=1P(cr)∏|di|k=1P(wdi,k|cr)
其中,
P(cj)
和
P(wdi,k|cj)
的公式就没有代入了,因为代进去,公式就看不清楚了。
参考资料:
《概率论基础教程》第9版,(美)罗斯 著,童行伟,梁宝生 译
《线性代数及其应用》第3版,(美)莱(Lay,D.C.) 著,刘深泉 等译