机器学习-贝叶斯分类器

  1. 贝叶斯定理

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。

引用百度文库解释贝叶斯定理的例子:

贝叶斯定理在检测吸毒者时很有用。假设一个常规的检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性(用“Y”表示)的概率为。而被检者不吸毒时,每次检测呈阴性(用“y”表示)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高。令“D”为该公司雇员吸毒事件,“N”为该公司雇员不吸毒事件,“Y”为该公司雇员检测呈阳性事件。可得

(1)P(D)代表雇员吸毒的概率,该值为0.5%,这个值为先验概率

(2)P(N)代表雇员不吸毒的概率,该值为99.5%,也就是1-P(D)

(3)P(Y|D)代表吸毒者阳性检出率,这是一个条件概率同时也是先验概率,阳性检测准确性是99%

(4)P(Y|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为1%,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1-99%

(5)P(Y)代表不考虑其他因素的影响的阳性检出率,根据全概率公式可得 P(Y) = P(Y,D) + P(Y,N) = P(Y|D)P(D)+P(Y|N)P(N) =99%*0.5%+1%*99.5% = 0.0149

由上述条件可以得到某人在检测阳性的情况下吸毒的概率:

贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。(西瓜书中,一个西瓜越多的属性接近好西瓜,那么该西瓜越有更大概率是好西瓜)


  1. 贝叶斯分类器

假设有N种可能的类别标记,即={,,...,},是将一个真实标记为的样本误分类为所产生的期望损失,即在样本x上的条件风险:

上式可以理解为样本x分类为 的损失总和

我们的任务是寻找一个判定准则h:以最小化风险,其中为样本空间。

贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的分类标记,即:

此时称为贝叶斯最优分类器。

具体来说,若目标是最小化分类错误率,则误判损失可写为:

此时条件风险,于是,最小化分类错误率的贝叶斯最优分类器为:

即对每个样本x,选择能使后验概率最大的类别标记。

根据贝叶斯定理可得:

其中,P(c)是类先验概率;是样本x相对于类标记c的类条件概率,P(x)是用于归一化的证据因子。对给定样本x,证据因子P(x)与类标记无关,因此估计的问题就转化为如何基于训练数据D来估计先验P(c)和似然

类先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定律,当训练样本包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。


  1. 朴素贝叶斯分类器

不难发现,基于贝叶斯公式来估计后验概率的主要困难在于:类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。

基于属性条件独立性假设:

其中d为属性数目,为x在第i个属性上的取值。

由于对所有类别来说P(x)相同,因此朴素贝叶斯分类器为:

显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值