首先朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。
对于计算而言,需要记住一个公式。p(c|x)=p(x|c)p(c)/p(x)类似于概率论条件概率公式。其中x代表含义为最终类别,例如:yes?no。c为属性。
e.g.
使用朴素贝叶斯算法预测未知样本X={rain,hot,normal,weak,?}属性play为yes还是no?
预测未知属性是yes or no 当然需要比较其概率。利用朴素贝叶斯算法的求解过程如下:
P(play=yes|X)=P(play=yes)*P(play=yes)=P(x1|play=yes)*P(x2|play=yes)*P(x3|play=yes)*P(x4|play=yes)*P(play=yes)
其中P(play=yes)是指yes在全部play ball中的概率为 9/14
P(x1|play=yes)是指X中第一个rain属性的的概率为 (在rain属性下yes的概率)*(rain属性在其outlook类下的概率)/P(play=yes)=(3/5)*(5/14)/(9/14)=3/9;
依次求解剩余概率。最后相乘得到P(play=yes|X)的概率为 0.0211
同样方法求解P(play=no|X),与P(play=yes|X)比较大小。概率大的为最终类标号。