朴素贝叶斯分类

贝叶斯定理

先验概率:P(H),表示事件H发生的概率。
后验概率:P(H|X),表示在已知条件X发生的情况下,事件H发生的概率。
贝叶斯定理提供了一种P(H|X)和P(X|H)的转换方式:

这里写图片描述

朴素贝叶斯分类

基本假设:朴素贝叶斯分类方法假定一个属性值在给定类上的影响独立于其他属性的值。这一假定称为类条件独立性
分类过程:

  1. 设D是训练元组和它们相关联的类标号的集合。通常,每个元组用一个n维属性向量X={x1,x2,···,xn}表示,描述由n个属性A1,A1,···,An对元组的n个测量。
  2. 假定有m个类C1,C2,···,Cm。给定元组X,分类法将预测X属于具有最高后验概率的类(在条件X下)。也就是说,朴素贝叶斯分类法预测X属于类Ci,当且仅当
    这里写图片描述
  3. 由于P(X)对所有类为常数,所以只需要P(X|Ci)P(Ci)最大即可。如果类的先验概率未知,则通常假定这类是等概率的,即P(C1)=P(C2)=···=P(Cm),并据此对P(X|Ci)最大化。否则,最大化P(X|Ci)P(Ci)。注意,类先验概率可以用P(Ci)=|Ci,D|/|D|估计,其中|Ci,D|是D中Ci类的训练元组数。
  4. 给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为了降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定元组的类标号,假定属性值有条件地相互独立(即属性之间不存在依赖关系)。因此,
    这里写图片描述

    可以很容易地由训练元组估计概率P(x1|Ci),P(x2|Ci),···,P(xn|Ci)。
  5. 为了预测X的类标号,对每个类Ci,计算P(X|Ci)P(Ci)。该分类法预测输入元组X的类为Ci,当且仅当
    这里写图片描述

    即被预测的类标号是使P(X|Ci)P(Ci)最大的类Ci

P(X|Ci)的计算:
在上面的分类步骤中给出了P(X|Ci)的计算公式,但是,如何计算每个P(xk|Ci)的值,就需要考虑X中的每个属性Ak的具体特点。

  1. 如果属性Ak是分类属性,则P(xk|Ci)是D中属性Ak的值为xk的类Ci类的元组数除以D中Ci类的元组数|Ci,D|。
  2. 如果属性Ak是连续属性。我们假定属性值的分布符合均值为μ、标准差为σ的高斯分布,其密度函数为:
    这里写图片描述

    因此,
    这里写图片描述

    这里的μCi和σCi分别表示样本均值和样本标准差。

例子:

训练集D(buys_computer作为类标号属性):

这里写图片描述

这里的数据属性为:age、income、student、credit_rating。
类标号属性为:buys_computer。
设C 1对应于类buys_computer=yes,C 2对应于类buys_computer=no。
现在假设待分类元组
X={age=youth, income=medium, student=yes, credit_rating=fair}

现在需要分别计算P(C 1|X)和P(C 2|X)的值,选择较大值的类作为元组X的最终分类。
首先,计算每个类的先验概率:
这里写图片描述

下面分别计算同一类下的不同属性的后验概率:
对于C 1类(即buys_computer=yes):
这里写图片描述

所以,C 1类的后验概率:
这里写图片描述

对于C 2类(即buys_computer=no):
这里写图片描述

所以,C 2类的后验概率:
这里写图片描述

最后找出最大化P(X|C i)P(C i)的类:
这里写图片描述

通过比较可以发现,类C 1对应的值更大。所以,对于元组X,朴素贝叶斯分类预测元组X的类为C 1,即 buys_computer=yes

拉普拉斯校准

在计算元组在特定类别下的后验概率时,可能会出现某些属性的在该类别下的后验概率为零。这样就会导致整个元组的后验概率都为零。所以,拉普拉斯校准提供了一种简单的方法来避免这种情况的发生。
拉普拉斯校准在假定训练数据库很大,这样对于每个计数加上1造成的估计概率的变化可以忽略不计,但是却可以很好地避免零概率事件的发生。
注意,拉普拉斯校准是对所有的计数都进行加1操作!相应的各项分母也需要加上所有加上1的计数的个数。

转载于:https://www.cnblogs.com/ritchiewang/p/5767422.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值