一 原理:
贝叶斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)
贝叶斯分类:输入 X=(X1,X2...,Xn) 输出 P(Y1|X)...P(Yk|X)中最大的一个作为分类结果。
假设:输入各分量相互独立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1)/(P(X1)*...*P(Xn))
文本分类模型:(1)英文文本分类:假设英文中有50000个单词,每一篇文章用一个50000维的向量表示。某一维如果为0则表示对应单词在文章中没有出现,为1则代表出现 过。
(2)多项式模型:文章用一个向量表示,这个向量长度为文中词的个数。某一维元素为对应位置的单词。
二 技术要点:
中文分词;(ICTCLAS)
计算P(Y1)-P(Yk);
计算先验概率 P(X|Y1);
输出后验概率P(Y1|X);
三 技术改进:
(1)拉普拉斯平滑:
(2)特征选择:TF.IDF