原理:基于条件概率, 适用于不同维度之间相关性较小的时候,比较容易解释。
公式:p(c/x) = p(c,x) / p(x) = p(x/c)*p(c) / p(x)
解释:假设某个体有n个特征(feature),分别为F1,F2,........Fn
有m个类别(catogery),分别为C1,C2,.......Cm
贝叶斯分类器就是计算出概率最大的那个类别
P(C|F1,F2......Fn)=P(F1,F2......Fn/C) *P(C) / P(F1,F2......Fn)
=P(F1/C)*P(F2/C).......*P(Fn/C)*P(C) /P(F1,F2......Fn)
#案例1
p(感冒/打喷嚏*建筑工人)=p(打喷嚏*建筑工人/感冒)*p(感冒) / p(打喷嚏*建筑工人)
=p(打喷嚏/感冒)*p(建筑工人/感冒)*p(感冒) / p(打喷嚏)*p(建筑工人)
=0.66 x 0.33 x 0.5 / 0.5 x 0.33
=0.66
#案例2
p(性别/身高*体重*脚掌)=p( 身高 * 体重 * 脚掌 / 性别) * p( 性别 ) / p( 身高 * 体重 * 脚掌)
=p( 身高 / 性别 ) * p ( 体重 / 性别 )* p ( 性别 / 性别 ) * p ( 性别 ) / p (身高 * 体重 * 脚掌 )住
注:由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率,
可以假设男性和女性的身高、体重、脚掌都是正态分布
通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值
比如,男性的身高是均值5.855、方差0.035的正态分布。
所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。
P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男)
= 6.1984 x e-9
P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女)
= 5.3778 x e-4
可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。