1 类先验概率: p(c)=Dc/D (Dc为要求样本集合,D为训练集合)
2 条件概率:P(Xi|C)=Dc,xi/Dc
3 贝叶斯定理:P(A|B) = P(B|A) P(A) / P(B)
举例一:
某个医院早上收了六个门诊病人,如下表。
症状 职业 疾病
打喷嚏 护士 感冒
打喷嚏 农夫 过敏
头痛 建筑工人 脑震荡
头痛 建筑工人 感冒
打喷嚏 教师 感冒
头痛 教师 脑震荡
现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他最有可能患有何种疾病?
本质上,这就是一个典型的分类问题,症状和职业是特征属性,疾病种类是目标类别
根据贝叶斯定理
P(A|B) = P(B|A) P(A) / P(B)
可得
P(感冒|打喷嚏x建筑工人)
= P(打喷嚏x建筑工人|感冒) x P(感冒)
/ P(打喷嚏x建筑工人)
假定"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了
P(感冒|打喷嚏x建筑工人)
= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)
/ P(打喷嚏) x P(建筑工人)
这是可以计算的。
P(感冒|打喷嚏x建筑工人)
= 0.66 x 0.33 x 0.5 / 0.5 x 0.33
= 0.66
拉铺拉斯修正:P(c)=Dc+1/D+N,N表示训练集上所有的类别数,D表示所有的个数,Dc表示,C类事件的个数。如上题拉普拉斯修正后,感冒的概率:P(c)=(3+1)/(6+3)=4/9
P(Xi|C)=Dc,xi+1/Dc+Ni,Ni表示第i个属性所有的可能值。如上题职业为运动员,疾病为感冒的概率,本来的概率是:P(Xi|C)=1/3,一共三个感冒,只有一个为运动员。使用拉普拉斯修正后,P=(1+1)/(3+4),表示Xi的种类数。