Naive Bayes Classifier详解（附带概率论公式推导）

最新推荐文章于 2024-07-27 10:31:18 发布

Leon1895

最新推荐文章于 2024-07-27 10:31:18 发布

阅读量8.1k

点赞数 7

分类专栏：机器学习文章标签： Bayes Bayes Classification Naive Bayes Classifier

本文链接：https://blog.csdn.net/qq_40793975/article/details/81297755

版权

本文详细介绍了朴素贝叶斯分类器的原理，包括预备知识如贝叶斯定理、极大似然估计和贝叶斯决策论。接着，通过推导过程解释了如何估计类先验概率P(c)和后验概率P(x∣c)，并讨论了平滑处理的重要性。最后，探讨了朴素贝叶斯在实际应用中的策略，如快速预测、懒惰学习和增量学习，并展示了代码实现和分类效果。

摘要由CSDN通过智能技术生成

Naive Bayes Classifier详解

第八次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇的内容来自于各种书籍和网上资料，以及自己的一些见解。

预备知识：

这一部分主要是谈一谈概率论中的相关内容，以及贝叶斯决策论的介绍。

贝叶斯定理（Bayes’ theorem）

假设 $X, Y$ 是一对随机变量，他们的联合概率 $P\left(Y=y,X=x\right)$ 是指 $X$ 取值为 $x$ 且 $Y$ 取值为 $y$ 的概率，条件概率是指一随机变量在另一个随机变量取值已知的情况下取某一特定值的概率。例如，条件概率 $P\left(Y=y|X=x\right)$ 是指在变量 $X$ 取值为 $x$ 的情况下，变量 $Y$ 取值为 $y$ 的概率。 $X$ 和 $Y$ 的联合概率和条件概率满足如下关系：

其中 $P\left(X|Y\right)$ （ $P\left(Y|X\right)$ ）为变量 $X$ （ $Y$ ）的后验概率， $P\left(X\right)$ （ $P\left(Y\right)$ ）为变量 $X$ （ $Y$ ）的先验概率。上式还可以写成如下形式，称为贝叶斯定理：

极大似然估计

假设条件概率 $P\left(X|Y=y\right)$ 服从某一确定的概率分布模型，且该模型由参数 $\theta$ 唯一确定。为了确定 $\theta$ 的值，我们假设该参数的预测值为 $\hat{\theta}$ ，则存在条件概率 $P\left(X|\hat{\theta}\right)$ ，可以定量的评价预测值与实际值的符合程度。
实际上概率分布模型的训练过程，就是参数估计过程。对于参数估计，统计学界的两个学派扥别提出了不同的解决方案：频率主义学派认为参数虽然未知，但却是客观存在的“固定值”，因此，可以通过优化似然函数等准则来确定参数值；贝叶斯学派则认为参数是未观察到的“随机变量”，其本身也可以符合某种特殊的分布，因此，可以假设参数服从某个先验分布，然后基于观测到的数据来计算参数的后验分布。下面对源自频率主义学派的极大似然估计（Maximum Likelihood Estimation，简称MLE）进行介绍，这是根据数据采样来估计概率分布参数的经典方法。
令 $D_y$ 表示数据集 $D$ 中，随机变量 $Y$ 取值为 $y$ 的样本组成的集合，假设这些样本是独立同分布的，则参数 $\theta$ 对于数据集 $D_y$ 的似然是

对参数 $\theta$ 进行极大似然估计，就是去寻找能最大化似然 $P\left(D_y|\theta\right)$ 的参数值 $\hat{\theta}$ 。从直观上看，极大似然估计是试图在参数 $\theta$ 的所有可能的取值中，找到一个可以使数据 $x$ （ $x\in{D_y}$ ）出现在集合（ $D_y$ ）中的可能性最大的值。
式（1）中条件概率的联乘操作容易导致下溢，故通常使用对数似然（log-likelihood）