贝叶斯法则概要

贝叶斯法则

贝叶斯分类算法是一大类分类算法的总称
贝叶斯分类算法以样本可能属于某类的概率来最为分类的依据
贝叶斯法则推导

朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。其中“朴素”的意思就是条件概率独立性
朴素贝叶斯的思想:如果一个事物在一些属性条件发生的情况下,事物属于A的概率大于属于B的概率,则判定该事物属于A。
数学原理:P(类别 | 特征) = P(特征 | 类别) * P(类别) / P(特征)

  1. 高斯朴素贝叶斯
    高斯贝叶斯是用来处理连续型变量的分类问题,例如:人的身高,特征1:身高为160cm以下;特征2:身高为160cm到170cm;特征3:身高为170cm以上。这个例子看似是个离散型分类,但是里面存在着连续变量,为了更好地解决这种问题,我们可以用高斯朴素贝叶斯。

  2. 多项式朴素贝叶斯
    多项式朴素贝叶斯是用来处理离散型变量的分类问题。常用于文本分类,特征是单词,值是单词出现的次数。
    多项式模型在计算先验概率P(yk)和条件概率P(xi|yk)时,会做一些平滑处理,平滑方法是为了解决零概率问题。
    比较常用的平滑处理有:拉普拉斯平滑(Laplace Smoothing),又称为加1平滑。
    平滑处理公式为:
    先验概率:
    在这里插入图片描述
    (注:N是总的样本个数,k是总的类别个数,Nyk是类别为yk的样本个数, α是平滑值);

    条件概率:
    在这里插入图片描述
    (注:Nyk是类别为yk的样本个数,n是特征的维数,Nykxi是类别样本为yk的样本中,第i维特征的值是xi的样本个数,α是平滑值)。

    当α = 1时,称作Laplace平滑,当0 < α < 1时,称作Lidstone平滑,当α = 0时不做平滑。
    如果不做平滑,当某一维特征的值xi没在训练样本中出现过,会导致P(xi|yk) = 0,从而导致后验概率为0,而平滑处理可以解决这个问题。

  3. 伯努利朴素贝叶斯
    伯努利模型与多项式模型一样,适用于离散型特征,不同的是,伯努利中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0)。
    在伯努利模型中,条件概率P(xi|yk)的计算方式是:
    当特征值xi为1时,P(xi|yk)=P(xi=1|yk);
    当特征值xi为0时,P(xi|yk)=1-P(xi=1|yk);
    这意味着,“没有某个特征”也是一个特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值