朴素贝叶斯

1.朴素贝叶斯简介

朴素贝叶斯是一种基于贝叶斯定理的分类算法,它的核心思想是:在已知某些条件下,预测一个事件发生的概率。在分类问题中,我们通常根据特征来预测一个对象属于哪个类别。朴素贝叶斯之所以“朴素”,是因为它假设所有特征都是相互独立的,这大大简化了概率计算。

2.实例

假如已知一个人的职业可能是图书管理员或者农民,而已知这两种职业的人数比为:1:20,又根据其他人的口中得到信息,描述此人为图书管理员的概率为0.95,描述此人为农民的概率为0.5。判断此人是图书管理员还是农民?

解:记某人为图书管理员为事件A,则先验概率为:

p(A) = \frac{1}{21}=0.047

 记某人为农民为事件\widetilde{A},则先验概率为:

p(\widetilde{A}) = \frac{20}{21}=0.952

 记其他人给出的信息数据为X,则得到

        此人是图书管理员的式子为:p(X|A) = 0.95

        此人是农民的式子为:p(X|\widetilde{A})=0.5

现在想要求得p(A|X),由贝叶斯定理:

p(A|X)=\frac{p(A,X)}{p(X)}=\frac{p(X|A)p(A)}{p(X)}

p(X)可由全概率公式+条件概率公式计算

p(X)=p(X,\widetilde{A})+p(X,A)\\ =p(X|A)p(A)+p(X|\widetilde{A})p(\widetilde{A}) \\=0.95\times \frac{1}{21}+0.5\times \frac{20}{21}\\ = 0.52 

得到此人为图书管理员的概率为:

p(A|X)=0.95\times \frac{1}{21}\div 0.52=0.087 

同理得到此人为农民的概率为:

p(\widetilde{A}|X)=0.5\times \frac{20}{21}\div 0.52 = 0.916 

得出此人为农民。 

3.算法具体流程及知识点

模型:贝叶斯分类器是一种生成模型,输出为各类别的条件概率

策略:最大后验概率or 极大似然估计(该策略使得模型在实际应用中的效果往往表现良好)

算法:

(1). 计算先验概率 

(2). 计算后验概率(利用“朴素”性质:特征相互独立) 

(3). 以最大概率类输出类别

(《统计机器学习》李航 p63 4.1

评价:极大似然估计策略使得模型在实际应用中的效果往往表现良好,但是“朴素”的条件往往在现实中难以满足)

3.1贝叶斯决策流程

 

3.2拉普拉斯平滑 

拉普拉斯平滑的基本思想是在每个可能的事件计数上加上一个常数(通常是1),以确保所有事件的概率之和为1,并且避免了概率为零的情况。这样做的原因是,如果某个事件在训练数据中从未出现,按照极大似然估计,其概率将为零,这将导致后验概率也为零,从而无法进行有效的分类。

为了避免这问题,朴素贝叶斯需要加入一个平滑因子,即在计算每个p(X^{j}=x^{(j)}_i|Y)时,在分母和分子当中同时增加个较小的值,一般分子中加平滑因子\alpha,在分母对应加入平滑因子\alpha,在分母中加入一个K\alpha,即

p(X^{j}=x^{(j)}_i|Y)=\frac{N_{kj} +\alpha}{N_{k}+K\alpha }

这里K表示训练集中类别的总数。当\alpha=1对应平滑就称为”拉普拉斯平滑”。

3.3 计算先验概率p(Y)

X为离散型:伯努利贝叶斯分类器 

X为离散型:多项式型  

X为连续型:高斯分类器

3.4 离散型特征:

3.5 连续型特征:

3.6 应用场景

(1)垃圾识别 (2)文本分类(3)情感识别( 一般可以转换成文本分类)。(4)多分类实时预 (因为速度快) 推荐系统(朴素贝叶斯和协同过滤是对好搭档,因为协同过滤是强相性的,而泛化能力弱,所以朴素贝叶斯和其起可以增强推荐的覆盖度和效果) 。

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值