一、理论基础
(一)
朴素贝叶斯定理
简单的说:一个样本属于某个类别的概率是:这个类别出现的概率 * 已知这个类别出现的情况下各个属性出现的概率的乘积
根据贝叶斯定理,事件X发生时,类别Ci发生的后验概率为:
而P(X)对于所有的CI都是相等的,且假设X的各个属性之间是独立的(朴素假设),则可得:
即符合X特征变量的类别Ci的后验概率可由上述公式计算出来,然后比较各个Ci的大小,最大的那个类别即最有可能发生的。
(二)示例
1、训练数据
2、需要预测的数据为
X={age=youth,income=medium,student=yes,credit_rating}
计算此用户购买computer的可能性。
3、计算为YES的概念
(1)购买用户的总概率。从表中可见14人中有9个购买了电脑,因此概率为:
(2)在购买用户的9人中符合X特征中的age=youth的有2人,比例为:
(3)在购买用户的9人中符合X特征中的income=medium的有4人,比例为:
(4)在购买用户的9人中符合X特征中的student=yes的有6人,比例为
(5)在购买用户的9人中符合X特征中的credit_rating的有6人,比例为
根据朴素贝叶斯定理,
其中:
P(X)对所有分类都相等
符合X={age=youth,income=medium,student=yes,credit_rating}的情况下,Ci={buys_computer=yes}的后验熬概率为:
3、使用同样的方法,可以计算出符 合X的情况下,Cj=(buys_computer=no)的后验概率为:
4、结论:由上面的计算结果可知,朴素贝叶斯分类预测元组X的类为buy_computer=yes。
(三)三种常见的模型
1、伯努利模型
与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0).
伯努利模型中,条件概率
P
(
x
i
|
y
k
)
的计算方式是:
当特征值
x