朴素贝叶斯分类的正式定义如下:
1.设:
x={a1,a2,...,am}
为一个待分类项,而每个a为x的一个特征属性。
2.有类别集合:
C={y1,y2,...,yn}
3.计算:
P(y1|x), P(y2|x),...,P(yn|x)
4.如果:
P(yk|x) = max{P(y1|x),P(y2|x),...,P(yn|x)}
那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
1.找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2.统计得到在各类别下各个特征属性的条件概率估计。即
3.如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
例题: