贝叶斯分类器基本原理总结

文中借鉴引用CSDN各大博主图片,文献,思想。非完全原创

贝叶斯分类器的基本脉络 

 

 

基本原理 

什么是贝叶斯决策论: 通过相关概率已知的情况下利用误判损失来选择最优的分类器。 

误判损失也叫风险。即原本为Cj的样本被误分类成Ci产生的期望损失 

 

其中lambda便为损失,损失乘以概率得到期望损失(风险)。 

而我们的目标则是寻找一个判定准则h以最小化R。 

显然,为了最小化总体风险,我们只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。 

H*为最优分类器,与之对应的总体风险为贝叶斯风险。其中lambda为1时,最优贝叶斯分类器是使后验概率P(c|x)最大。 

 

利用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x),机器学习则是基于有限的训练样本集尽可能准确的估计出后验概率P(c|x)。通常有两种模型:1.判别式模型          2.生成式模型 

其中,判别式模型:给定x,可通过直接建模P(c|x)来预测c。  x是我们的条件(如西瓜的颜色、滕曼、根茎) c是结果(好瓜、坏瓜)。实例如上图。 

而生成式模型:先对联合概率P(x,c)建模,根据P(x|c)与贝叶斯定理、极大似然估计,获得最优P(c|x)。 

 

贝叶斯便是一种生成式模型,贝叶斯定理如下: 

 

P(c)是类“先验”概率,P(x|c)是样本x相对于类标记条件概率,或称似然。 

 

而对于模型的训练过程,其实就是对于参数的估计过程。我们可以使用似然估计法,使用对数似然得到极大似然估计。 

(公式见统计学与概率论中极大似然估计) 

 

朴素贝叶斯分类器:

朴素贝叶斯分类器 

基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:P(x|c)是所有属性上的联合概率,难以从有限的训练样本估计而得。为了避开这个障碍,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立,即每个属性独立的对分类结果造成影响。 

(贝叶斯基础见贝叶斯决策) 

 

根据贝叶斯定理 

 

对P(x|c)做似然估计后得: 

 

其中d为属性数目,xi为x在第i个属性上的取值(如x表示颜色,x1为绿色  x2为黄色) 

由于对所有类别来说p(x)相同,因此基于上式的贝叶斯准则有 

 

即: 

 

 

对于每一个离散属性与连续属性的分别处理(无laplace修正): 

 

 

例子:西瓜书p152  或  https://blog.csdn.net/qq_32690999/article/details/78737393#Bayesian_Theorem_49 

 

拉普拉斯修正: 

 

朴素贝叶斯分类器在实际使用中需注意的一个问题:若某个离散类型的属性值在训练集中没有与某个类同时出现过,那么当我们使用 上述条件概率对其进行估计时, p(xi|c)=0。因此,哪怕其他属性x表现的再像c,也会被当做是0。 

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,我们使用拉普拉斯修正对估计概率做“平滑”处理。 

 

用例同上。 

 

 

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值