贝叶斯文本分类器原理and技术要点

一 原理:

贝叶斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)

贝叶斯分类:输入 X=(X1,X2...,Xn) 输出  P(Y1|X)...P(Yk|X)中最大的一个作为分类结果。

                       假设:输入各分量相互独立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1)/(P(X1)*...*P(Xn))

文本分类模型:(1)英文文本分类:假设英文中有50000个单词,每一篇文章用一个50000维的向量表示。某一维如果为0则表示对应单词在文章中没有出现,为1则代表出现                                     过。

                            (2)多项式模型:文章用一个向量表示,这个向量长度为文中词的个数。某一维元素为对应位置的单词。

二 技术要点:

中文分词;(ICTCLAS)

计算P(Y1)-P(Yk);

计算先验概率 P(X|Y1);

输出后验概率P(Y1|X);

三 技术改进:

(1)拉普拉斯平滑:

(2)特征选择:TF.IDF


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值