统计学习方法--朴素贝叶斯法

Summary:朴素贝叶斯定理是基于贝叶斯定理特征条件独立假设的分类方法。

1. 贝叶斯定理的理解

    最近迷上了给我12岁的小弟打电话讲算法,他也听得欢喜。所以用一个简单的例子来理解一下,贝叶斯定理的用途。

   小弟有一个每天到处蹭网玩游戏的邻居朋友,叫做小王,成绩非常差,班级倒数。但人的潜力是无穷的,不能否认后期变成不了学霸。只是短短一个学年内考到班级前十名,会比较困难,姑且认为有1%的概率吧。

   小王的爸爸说了,“儿子,你要是能考到班级前十名,我95%的概率会给你买一个无人机(UAV)!”

   小王爸爸继续解释到,如果你考进了前十,我买UAV的概率是95%,如果考不进去的话,我买的概率是5%。

  新学期开始了,我和小弟惊讶的发现,小王在玩UAV!小弟瞬间惊恐万状,我的学渣朋友怎么一下子逆转成了学霸?

  我告诉他,别急,听机智老姐来算一算~~

 【小王真的考进了前十了吗?】

  A:小王考进前十;  B:老爸给小王买UAV

  小王考前10的概率是1%,及P(A) = 1%, 这是先验概率

  小王考进前十,老爸给买UAV的概率是95%,即P(B|A) = 95%

  小王没考进前十,老爸给买UAV的概率是5%,即P(B|A^c) = 5%   (A^c表示A上标是c,在统计学中表示A的补事件)

  我们要推测,小王有了UAV,在多大程度上可能是因为他考进了前十?即求P(A|B)

P(A|B) = P(A并B) / P(B) = P(B|A) * P(A) / [ P(B|A)*P(A) + P(B|A^c) *P(A^c) ]

          = 95% * 1% / [ 95% * 1% + 5% * 99%] 

         = 16%

 也就是说,仅有16%的概率表明,小王确实是考进了前十名拿到的UAV。

2. 几个概念

先验概率:事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。是根据以往经验和分析得到的概率。

后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

条件概率:条件概率是在某条件下事件发生的概率。

联合概率:当存在多个变量、需要各个变量满足各自条件的概率。

3. 基本方法与过程

假设总共有n个特征变量,即有{x1,x2,x3,...,xn}这么多的特征维度。

但每个特征变量的可取值也是完全不定的,比如x1的可能值有3种,x2的可能值有5种, ... 假设n个数值的集合Sj = {s1,s2, ..., sn},其内每个元素的大小表示每个特征变量xj (j =1,2,3,...,n)可取值的数量。

设类别结果y总共有K个可能的取值。

则参数的分布情况总共有: (s1 * s2 * s3 * ... +* sj) *k这么多种。用数学连乘符号符号,可以写成:

朴素贝叶斯要求,所有这些特征变量之间不存在依附关系,必须是独立哒~用术语说,满足条件独立性假说。

条件独立性假说的高大上符号表示如下:


朴素贝叶斯在分类的过程中,对于给定的输入x,会通过学习,得到模型计算的后验概率:


上面这个公式中,会求出在X取x这个特定值的情况下,Y所有可能取值情况的概率(后验概率)。

贝叶斯分类器就是要找到所有Y取值情况中,后验概率最大的Y的取值,然后把x分到这个类中,完成分类过程。

4. 朴素贝叶斯的参数估计

在朴素贝叶斯分类法中,学习意味着估计(先验概率)和后验概率

对这两个概率的估计,可以用两类方法进行。分别是极大似然估计和贝叶斯估计。

  • 极大似然估计:简单说来,就是利用出现次数作为概率。

Y取y1在总记录中出现了k1次,那么Y=y1的先验概率就是: k1/总记录数N。

我们输入一个x,先暂且假设输出得到的是y1。我们就可以开始求算Y取y1的后验概率了。

在这种结果的情况下,我们可以得到,X1的值取得x1的概率是:P(X1=x1|Y=y1)=(x1和y1同时出现的记录数)/总记录数N。X2取了x2的概率是P(X2=x2|Y=y1)=(x2和y1同时出现的记录数)/总记录数N。

把多个特征变量组合在一起之后,我们说,因为X1取x1,X2取x2,造成Y=y1的概率是P(Y=y1)*P(X1=x1|Y=y1)*P(X2=x2|Y=y1)

然后,我们再假设输出的结果是Y=y2,再求由X1=x1,X2=x2造成Y=y2的概率。

我们比较y1和y2的大小关系,就能知道在X1=x1,X2=x2的情况下,输出值可能性最大是哪一种情况了。

明显的缺点:如果某一个变量Xj在Y=yk的情况下,没有出现过,她的概率就是0了,由于独立性假设,整个后验概率结果为0.

  • 贝叶斯估计:改进了后验概率可能为0的情况。

在极大似然估计种,利用统计的次数求比重的时候,分子分母各自加上一个特定的数,就避免了出现0的情况。

先验概率变为:分子--Y=yk的总次数增加delt, 分母--记录总次数N增加K*delt (K是y可能取值的种类数)

后验概率变为:分子--X=xj和Y=yk联合出现的总次数增加delt, 分母--Y=yk出现总次数增加sj*delt (sj是Xj取值的种类数)

当delt=0时,就是极大似然估计;当delt=1时,就是拉普拉斯平滑估计。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值