西瓜书学习笔记7-贝叶斯分类器

最新推荐文章于 2024-08-04 23:46:49 发布

weixin_41872340

最新推荐文章于 2024-08-04 23:46:49 发布

阅读量641

点赞数

分类专栏：西瓜书

本文链接：https://blog.csdn.net/weixin_41872340/article/details/103693156

版权

本文介绍了贝叶斯决策论及其在分类任务中的应用，阐述了极大似然估计在估计概率分布参数中的作用。接着详细讲解了朴素贝叶斯分类器的原理和实现，包括属性条件独立性假设以及平滑处理。此外，还讨论了半朴素贝叶斯分类器，如独依赖估计策略，并简要介绍了贝叶斯网的概念和结构。最后提到了EM算法在处理隐变量时的应用。

摘要由CSDN通过智能技术生成

chapter 7 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法，对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于概率和误判损失来选择最优的类别标记，以多分类为例解释原理：
假设分类问题有N种可能的类别，λij是将真实标记为j的样本误分类为i所产生的损失，基于==后验概率P（ci丨x）==可获得将样本x分类为ci所产生的期望损失，即在样本x上的 “条件风险”：
在这里插入图片描述
我们的任务是寻找一个判定准则h，X→Y以最小化总体风险：

对每个样本，若h能最小化条件风险R（h（x）丨x），则总体风险也将被最小化。这就产生了贝叶斯判定准则，为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标记，即：
在这里插入图片描述
此时的h，称为贝叶斯最优分类器，与之对应的总体风险R（h）称为贝叶斯风险，1-R（h）反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限（这里指所有的机器学习方法）。
为最小化错误率，误判损失λij可写为：
在这里插入图片描述
（如果判别正确，则损失为0，否则为1），此时条件风险：

于是，最小化分类错误率的最优贝叶斯分类器为：

即对每个样本x，选择能使后验概率P（c丨x）最大的类别标记。
欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P（c丨x），然而这在现实任务中通常难以获得。
机器学习的目标是基于有限的训练集样本尽可能准确地估计出后验概率P（c丨x）。
主要有两种策略：1、给定x，可以通过直接建模P（c丨x）来预测c，这得到的是 “判别式模型”。也可对联合概率分布P（x，c）建模，再由此获得P（c丨x），这样得到的是“生成式模型”，前面的决策树，BP，SVM都可纳入判别式模型的范畴，对生成式模型来说，必然考虑：