【机器学习】贝叶斯分类器（算法原理实现及sklearn实现）

最新推荐文章于 2024-10-02 12:04:46 发布

Bigdataxy

最新推荐文章于 2024-10-02 12:04:46 发布

阅读量3k

点赞数 11

分类专栏：机器学习文章标签：算法 sklearn

本文链接：https://blog.csdn.net/qq_53271322/article/details/128049726

版权

本文详细介绍了贝叶斯分类器的概念和应用，包括先验概率、后验概率、贝叶斯公式、极大似然估计和朴素贝叶斯分类器。通过实例展示了如何基于训练数据估计概率，并通过拉普拉斯修正处理零概率问题。最后，通过代码实现展示了朴素贝叶斯模型的构建和性能评估。

摘要由CSDN通过智能技术生成

系列文章目录

第一章先验概率和后验概率的通俗解释（贝叶斯分类）
第二章贝叶斯公式证明及Bayesain在机器学习重要地位的理解
第三章【机器学习】贝叶斯分类器

前沿

贝叶斯分类器作为“生成式模型”可处理多分类问题，在数据较少的情况下依然有效，本文介绍了算法原理推导及基于算法原理的代码实现与基于sklearn包的代码实现。

一、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法，对于分类任务，在所有相关概率都已知的理想情形下，该方法考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有 N 中可能的类别标记，即 $y=(c_1,c_2,...,c_N),\lambda_{ij}$ 是将一个真实标记为 $c_{j}$ 的样本误分类为 $c_i$ 所产生的损失。基于后验概率 $P(c_i|x)$ 可获得将样本 $x$ 分类为 $c_i$ 所产生的期望损失，即在样本 $x$ 上的“条件风险”
$R(c_i|x)=\sum^{N}_{j=1}\lambda_{ij}P(c_j|x)$ 在一次分类过程中我们希望分类结果尽可能接近真实值，即要求总体的期望损失最小，这就产生了贝叶斯判别准则：为最小化总体风险，只需在每个样本上选择那个能使条件风险 $R (c ∣ x)$ 最小的类别标记,即
$h^*(x)=arg_{c\in y}minR(c|x)$ 此时， $h^*$ 称为贝叶斯最优分类器,与之对应的总体风险 $R(h^*)$ 称为贝叶斯风险。 $1-R(h^*)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。其中，贝叶斯风险 $R (h)$ 为
$R(h^*)=E_x[R(h^*(x)|x)]$ 若目标是最小化分类错误率，则误判损失 $\lambda_{ij}$ 可写为
$\lambda_{ij} = \{ \begin{array}{rcl} 0, & i=j;\\ 1, &otherwise\end{array}$ 此时的条件风险 $R(c|x)=\sum^N_{j=1}\lambda_{ij}P(c_j|x)\\ =\sum^N_{j\neq i}\lambda_{ij}P(c_j|x)+0=1-P(c|x)$