朴素贝叶斯算法解题流程

1 类先验概率: p(c)=Dc/D (Dc为要求样本集合,D为训练集合)

2 条件概率:P(Xi|C)=Dc,xi/Dc

3 贝叶斯定理:P(A|B) = P(B|A) P(A) / P(B)

举例一:
某个医院早上收了六个门诊病人,如下表。

症状 职业 疾病
打喷嚏 护士 感冒
打喷嚏 农夫 过敏
头痛 建筑工人 脑震荡
头痛 建筑工人 感冒
打喷嚏 教师 感冒
头痛 教师 脑震荡
现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他最有可能患有何种疾病?

本质上,这就是一个典型的分类问题,症状和职业是特征属性,疾病种类是目标类别

根据贝叶斯定理

P(A|B) = P(B|A) P(A) / P(B)

可得

P(感冒|打喷嚏x建筑工人)
    = P(打喷嚏x建筑工人|感冒) x P(感冒)
    / P(打喷嚏x建筑工人)

假定"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了

P(感冒|打喷嚏x建筑工人)
    = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)
    / P(打喷嚏) x P(建筑工人)

这是可以计算的。

P(感冒|打喷嚏x建筑工人)
    = 0.66 x 0.33 x 0.5 / 0.5 x 0.33
    = 0.66

拉铺拉斯修正:P(c)=Dc+1/D+N,N表示训练集上所有的类别数,D表示所有的个数,Dc表示,C类事件的个数。如上题拉普拉斯修正后,感冒的概率:P(c)=(3+1)/(6+3)=4/9

P(Xi|C)=Dc,xi+1/Dc+Ni,Ni表示第i个属性所有的可能值。如上题职业为运动员,疾病为感冒的概率,本来的概率是:P(Xi|C)=1/3,一共三个感冒,只有一个为运动员。使用拉普拉斯修正后,P=(1+1)/(3+4),表示Xi的种类数。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值