数据挖掘——贝叶斯公式与朴素贝叶斯分类

本文介绍了数据挖掘中的贝叶斯公式与朴素贝叶斯分类方法。条件概率、联合概率和边缘概率是基础,贝叶斯定理通过后验概率、似然函数和证据因子联系了先验概率。朴素贝叶斯分类器假设特征间条件独立,简化了概率计算,通过训练数据集计算各特征属性的条件概率,以此进行分类。
摘要由CSDN通过智能技术生成

数据挖掘——贝叶斯公式与朴素贝叶斯分类

1.   条件概率

      条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

      比如,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率,所以:P(A|B) = |A∩B|/|B|,接着分子、分母都除以|Ω|得到:


P(A|B)是在B发生的情况下A发生的可能性。

  1. 首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;
  2. 其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;
  3. 类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;
  4. 同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示;

2.  联合概率、边缘概率

  边缘概率(先验概率)(prior probability)是指根据以往经验和分析得到的概率。

联合概率表示两个事件共同发生的概率。A与B的联合概率表示P(A∪B)或者P(A,B)。

边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。

 

 

3.  贝叶斯定理

上述直接给出贝叶斯公式,关于条件概率和先验概率已经给出解释,不再说明。

似然函数:    p(B|A)为A关于B的似然函数,也成为类条件概率密度函数,表明类别状态为A时的B的概率密度函数。

证据因子: 证据因子的存在只是为了保证各类别的后验概率的总和为1。

推导:

根据条件概率的定义,在事件B发生的条件下事件A发生的概率是

同样地,在事件A发生的条件下事件B发生的概率

整理与合并上述两个方程式,便可以得到:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值