贝叶斯分类器基本原理总结

最新推荐文章于 2024-08-04 23:46:49 发布

Serrie.

最新推荐文章于 2024-08-04 23:46:49 发布

阅读量6k

收藏 16

点赞数 2

分类专栏： Machine Learning 文章标签：贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq249356520/article/details/89208057

版权

Machine Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文中借鉴引用CSDN各大博主图片，文献，思想。非完全原创

贝叶斯分类器的基本脉络

基本原理

什么是贝叶斯决策论：通过相关概率已知的情况下利用误判损失来选择最优的分类器。

误判损失也叫风险。即原本为Cj的样本被误分类成Ci产生的期望损失

其中lambda便为损失，损失乘以概率得到期望损失（风险）。

而我们的目标则是寻找一个判定准则h以最小化R。

显然，为了最小化总体风险，我们只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。

H*为最优分类器，与之对应的总体风险为贝叶斯风险。其中lambda为1时，最优贝叶斯分类器是使后验概率P（c|x）最大。

利用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P（c|x），机器学习则是基于有限的训练样本集尽可能准确的估计出后验概率P（c|x）。通常有两种模型：1.判别式模型 2.生成式模型

其中，判别式模型：给定x，可通过直接建模P(c|x)来预测c。 x是我们的条件（如西瓜的颜色、滕曼、根茎） c是结果（好瓜、坏瓜）。实例如上图。

而生成式模型：先对联合概率P（x，c）建模，根据P(x|c)与贝叶斯定理、极大似然估计，获得最优P(c|x)。

贝叶斯便是一种生成式模型，贝叶斯定理如下：

P（c）是类“先验”概率，P（x|c）是样本x相对于类标记条件概率，或称似然。

而对于模型的训练过程，其实就是对于参数的估计过程。我们可以使用似然估计法，使用对数似然得到极大似然估计。

（公式见统计学与概率论中极大似然估计）

朴素贝叶斯分类器：

朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于：P(x|c)是所有属性上的联合概率，难以从有限的训练样本估计而得。为了避开这个障碍，朴素贝叶斯分类器采用了属性条件独立性假设：对已知类别，假设所有属性相互独立，即每个属性独立的对分类结果造成影响。

（贝叶斯基础见贝叶斯决策）

根据贝叶斯定理

对P(x|c)做似然估计后得：

其中d为属性数目，xi为x在第i个属性上的取值（如x表示颜色，x1为绿色 x2为黄色）

由于对所有类别来说p(x)相同，因此基于上式的贝叶斯准则有

即：

对于每一个离散属性与连续属性的分别处理（无laplace修正）：

例子：西瓜书p152 或 https://blog.csdn.net/qq_32690999/article/details/78737393#Bayesian_Theorem_49

拉普拉斯修正：

朴素贝叶斯分类器在实际使用中需注意的一个问题：若某个离散类型的属性值在训练集中没有与某个类同时出现过，那么当我们使用上述条件概率对其进行估计时， p(xi|c)=0。因此，哪怕其他属性x表现的再像c，也会被当做是0。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，我们使用拉普拉斯修正对估计概率做“平滑”处理。

用例同上。

Serrie.

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值