1.朴素贝叶斯简介
朴素贝叶斯是一种基于贝叶斯定理的分类算法,它的核心思想是:在已知某些条件下,预测一个事件发生的概率。在分类问题中,我们通常根据特征来预测一个对象属于哪个类别。朴素贝叶斯之所以“朴素”,是因为它假设所有特征都是相互独立的,这大大简化了概率计算。
2.实例
假如已知一个人的职业可能是图书管理员或者农民,而已知这两种职业的人数比为:1:20,又根据其他人的口中得到信息,描述此人为图书管理员的概率为0.95,描述此人为农民的概率为0.5。判断此人是图书管理员还是农民?
解:记某人为图书管理员为事件A,则先验概率为:
记某人为农民为事件,则先验概率为:
记其他人给出的信息数据为X,则得到
此人是图书管理员的式子为:;
此人是农民的式子为:。
现在想要求得,由贝叶斯定理:
可由全概率公式+条件概率公式计算
得到此人为图书管理员的概率为:
同理得到此人为农民的概率为:
得出此人为农民。
3.算法具体流程及知识点
模型:贝叶斯分类器是一种生成模型,输出为各类别的条件概率
策略:最大后验概率or 极大似然估计(该策略使得模型在实际应用中的效果往往表现良好)
算法:
(1). 计算先验概率
(2). 计算后验概率(利用“朴素”性质:特征相互独立)
(3). 以最大概率类输出类别
(《统计机器学习》李航 p63 例4.1)
评价:极大似然估计策略使得模型在实际应用中的效果往往表现良好,但是“朴素”的条件往往在现实中难以满足)
3.1贝叶斯决策流程
3.2拉普拉斯平滑
拉普拉斯平滑的基本思想是在每个可能的事件计数上加上一个常数(通常是1),以确保所有事件的概率之和为1,并且避免了概率为零的情况。这样做的原因是,如果某个事件在训练数据中从未出现,按照极大似然估计,其概率将为零,这将导致后验概率也为零,从而无法进行有效的分类。
为了避免这问题,朴素贝叶斯需要加入一个平滑因子,即在计算每个时,在分母和分子当中同时增加个较小的值,一般分子中加平滑因子,在分母对应加入平滑因子,在分母中加入一个,即
这里K表示训练集中类别的总数。当=1对应平滑就称为”拉普拉斯平滑”。
3.3 计算先验概率
X为离散型:伯努利贝叶斯分类器
X为离散型:多项式型
X为连续型:高斯分类器
3.4 离散型特征:
3.5 连续型特征:
3.6 应用场景
(1)垃圾识别 (2)文本分类(3)情感识别( 一般可以转换成文本分类)。(4)多分类实时预 (因为速度快) 推荐系统(朴素贝叶斯和协同过滤是对好搭档,因为协同过滤是强相性的,而泛化能力弱,所以朴素贝叶斯和其起可以增强推荐的覆盖度和效果) 。