最近自己对机器学习比较感兴趣,做个笔记,还请大牛不喜轻喷,多多指教。
朴素贝叶斯分类基于概率论中的贝叶斯原理:
P(A|B) = P(B|A)*P(A)/P(B)
所谓朴素即是特征属性之间相互独立的对分类结果发生影响。
所以对应的概率公式可改写为P(c|x) = P(x|c)|p(c) / P(x)
其中:
- P(c) 是类‘先验概率’
- P(x|c) 是样本x对于类标记c的类条件概率(或称似然)
- P(x)叫做证据因子
由于朴素贝叶斯假定所有特征属性独立,所以
- P(x|c)= P(x1,x2,…xn|c) = P(x1|c)P(x2|c) …P(xn|c)
- P(x) = P(x1) * P(x2) * … * P(xn)
所以
- P(c|x) = P(x1,x2,…xn|c) = P(x1|c)P(x2|c) …P(xn|c) * P(c) /
p(x)。 因为 P(c) / p(x)是固定值,所以我们一般只需要计算P(x|c),找出最大似然即可
Ps:
- 对于离散属性而言,P(x1|c) = 训练集中属性为x1且分类为c的数目|训练集中分类c的数目
- 对于离散属性而言,一般假定其概