朴素贝叶斯分类

本文介绍了朴素贝叶斯分类方法,基于贝叶斯定理和特征条件独立假设,用于概率分类。通过理解条件概率、乘法公式、全概率公式和贝叶斯公式,阐述了朴素贝叶斯分类器的计算过程。文章通过实例计算展示了分类步骤,并讨论了拉普拉斯校准在处理属性值未出现情况时的重要性。
摘要由CSDN通过智能技术生成

之前,我探讨过“决策树归纳”的分类方法(详见:决策树归纳),本文我将介绍另一中比决策树更加简单的,用概率方法分类的技术——“朴素贝叶斯分类”。

贝叶斯定理

贝叶斯定理是概率论中非常简单基础的定理,其解决的核心点在于根据已有信息,对未知事物发生结果的概率计算。就拿分类这件事来说(分类的相关概念我已经在上一篇博文:决策树归纳中说得相当清楚,故不再赘述),如果现在有一个数据对象 X X 形式上可以看做一个向量,每个维度代表了某一种属性的属性值。我们假设 X 属于某个类 Ci ,并把这个假设记为 H 。那么根据概率学的标记,可以用符号 P(H|X) 表示在数据对象为 X 的条件下,发生假设 H 后验概率。也就是说,在已知一个数据对象所有属性的前提下,这个数据对象的分类情况满足假设 H 的概率。

与此同时,用符号 P(H) 可以表示假设 H 先验概率,意思是在完全对数据对象无所知的情况下,这个数据对象的分类情况满足假设 H 的概率。根据字面意思,其实就不难理解,所谓“后验”是说已经得到一部分信息,有个判断的依据,再去做概率判断;而所谓“先验”是说完全没有任何信息,是纯粹的猜测概率。同理,后面还可以写出 P(X|H) 以及 P(X) ,相关的解释类似。

条件概率

至此,明白了这些概念,可以引入贝叶斯定理了。首先先提一下概率论中著名的条件概率公式。设 A B 是样本空间 Ω 中的两个事件,则:

P(A|B)=P(AB)P(B)

意思非常容易理解,在已知 B 发生的前提下,发生 A 的概率,等于 A,B 同时发生的概率除 B 发生的概率。举个简单的例子,一家人生了2个孩子,已知其中至少有一个是男孩,判断至少有一个是女孩的概率。

  • A :至少有一个是女孩

    • B :至少有一个是男孩

    P(A|B)=P(AB)P(B)=12/34=23

    而如果直接计算 P(A) 得到的结果是 P(A)=3/4 .

    乘法公式

    我们可以将条件概率公式变形,这就得到了乘法公式:

    P(AB)=P(A|B)P(B)

    全概率公式

    再拓展一步,假设样本空间 Ω 中有 n 个事件 B1,B2,,Bn 互不相容,且 ni=1Bi=Ω ,则根据乘法公式,存在:

    i=1nP(ABi)=i=1nP(A|Bi)P(Bi)=P(A)

    上面这个公式也就是所谓的全概率公式。

    贝叶斯公式

    最后根据乘法公式和全概率公式,可以最终得到贝叶斯公式:

    P(Bi|A)=
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值