朴素贝叶斯分类器在文本分类器中的应用

贝叶斯分类器的实质是通过先验概率来计算后验概率。从字面上看有点难以理解,举个例子:

分类1:癌症病人(占总病人的比例为0.008),化验阳性百分比0.98(即癌症病人中化验阳性的百分数为0.98)
分类2:非癌症病人(占总病人的比例为0.992),化验阳性百分比0.03(即非癌症病人中化验阳性的百分数为0.03)
现在有一病人化验呈阳性,判断下他属于哪一类,也即他是癌症病人还是非癌症病人

整个问题可简化为如下模型:

已知如下先验概率:
P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98
P(阳性|无cancer)=0.03

计算后验概率
P(阳性|cancer)p(cancer)和P(阳性|无cancer)*p(无cancer)
如果P(阳性|cancer)p(cancer)>P(阳性|无cancer)*p(无cancer),则该人属于分类1,即属于癌症病人
如果P(阳性|cancer)p(cancer)<P(阳性|无cancer)*p(无cancer),则该人属于分类2,即不属于癌症病人


上面这个例子和文本分类器其实是非常相似的
已知:
分类C1(新闻):含有关键词x1,x2,x3................
分类C2(娱乐):含有关键词x1,x2,x3................
分类C3(体育):含有关键词x1,x2,x3................
求解:
一个文本含有关键词x1、x3、x5.........,判断该文本属于那一类


朴素贝叶斯分类假定关键词概率向量独立同分布
P(x1,x3,x5|c1)=p(x1|c1)*p(x3|c1)*p(x5|c1)
P(x1,x3,x5|c2)=p(x1|c2)*p(x3|c2)*p(x5|c2)
P(x1,x3,x5|c3)=p(x1|c3)*p(x3|c3)*p(x5|c3)

这三个值那个大便属于那一类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值