朴素贝叶斯
一、贝叶斯方法
1.在概率论统计中,常常用贝叶斯定理推导当一个变量给定时另一个变量的条件概率表达
公式为:
X为特征,Y为模型结果,P(Y|X)为后验概率,P(X|Y)为似然度,P(Y)为先验概率,P(X)为边际似然度
2.先验概率:指人们可以根据历史数据统计或历史经验分析得到的概率,其值一般通过对历史数据的分析和统计得到,或由专家根据专业知识人为的指定。
3.后验概率:即条件概率,指一个随机变量在另一个随机变量取值已知的情况下取某一个特定值的概率。
4.联合概率:指的是在多元的概率分布中多个随机变量分别满足各自条件的概率。X与Y的联合概率可以表示为、
或
二、朴素贝叶斯原理
朴素贝叶斯法是典型的生成方法。生成方法由训练数据学习联合概率分布,然后求得后验概率分布
。
1.联合概率分布
概率估计方法可以是最大似然估计或贝叶斯原理
2.朴素贝叶斯
朴素贝叶斯法的基本假设是条件独立性,即:
朴素贝叶斯法,利用贝叶斯定理和学到的联合概率模型进行分类预测,举例说明
3.实列
设某网球俱乐部有如下表给出的打球与气候情况的历史数据样本集S。
俱乐部计划后天安排一次网球比赛活动,而后天的天气预报情况如下:
Z=(天气=“晴”,温度=“高”,湿度=“小”,风力=“无”)
请根据历史样本集S,利用贝叶斯分类器,判断后天是否适宜进行网球比赛。
解:由于S的类别属性C取值为“是”和“否”,因此,C将S分为两个类别集
根据公式,我们只需计算p(Z|C1)p(C1)和p(Z|C2)p(C2)
(1) 计算 p(C1)=9/14,p(C2)=5/14
(2) 计算
(3) 同理计算
(4) p(Z|C1)p(C1)=0.014>0.010=p(Z|C2)p(C2),因此,Z属于类C1=是。 即后天气象条件为Z时适宜打球。
三、拉普拉斯平滑
它是一种用于平滑分类数据的技术。引入拉普拉斯平滑法可以解决0概率问题,此时条件概率的贝叶斯估计是:
其中,K表示类别数量;A表示aj中不同值得数量。通常情况下,,加入拉普拉斯平滑之后,避免了出现概率为0的情况,同时保证了每个值都在0-1的范围内,且最终概率和为1。