【漫话机器学习系列】273.高斯朴素贝叶斯分类器(Gaussian Naive Bayes Classifier)

IT古董

于 2025-05-23 19:13:50 发布

阅读量1k

点赞数 19

分类专栏：漫话机器学习系列专辑文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/148174718

版权

漫话机器学习系列专辑专栏收录该内容

277 篇文章

订阅专栏

【机器学习】图解高斯朴素贝叶斯分类器：原理、公式与应用

在机器学习的世界中，朴素贝叶斯分类器是一种常用的概率模型，特别适合处理文本分类、垃圾邮件识别、情感分析等任务。其优点是实现简单、计算高效、解释性强。而在连续型特征的场景下，高斯朴素贝叶斯分类器（Gaussian Naive Bayes Classifier）则是首选。

本文将结合一张生动易懂的手绘图，深入讲解高斯朴素贝叶斯分类器的原理与推导。

一、什么是朴素贝叶斯分类器？

朴素贝叶斯分类器是一种基于贝叶斯定理（Bayes' Theorem）与特征条件独立假设的监督学习算法。核心思想是：

通过先验概率和条件概率，计算后验概率，并选择最大概率的类别作为预测结果。

其数学基础是下面这条公式： $P(\text{class} | \text{data}) = \frac{P(\text{data} | \text{class}) \cdot P(\text{class})}{P(\text{data})}$

二、图解公式含义

我们来看这张图：

这张图用手写的方式非常直观地解释了贝叶斯公式中的每一部分：

P(class | data)：后验概率。我们想要预测的目标，即在给定数据 data 的条件下属于某个 class 的概率。
P(data | class)：似然。表示在该类别 class 下，观察到 data 的概率。
P(class)：先验概率。是我们在没有看到 data 之前对每个类别的信念。
P(data)：观测数据的边缘概率。在朴素贝叶斯中，这是一个归一化因子，不依赖类别，因此常常在比较大小时被忽略。

三、为什么叫“高斯”朴素贝叶斯？

图中也提到：“称之为‘高斯’是因为这是一个正态分布。”

这意味着对于每一个特征 $x_i$ ，我们假设它在每一个类别下是服从高斯分布（正态分布）的。其概率密度函数如下：

$P(x_i | \text{class}) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right)$

其中：

μ 是该类别下该特征的均值
$\sigma^2$ 是该特征的方差

通俗理解：对于连续值特征，使用正态分布来估计每个类别中这些特征的出现概率。

四、为什么可以忽略 P(data)？

图中写道：

“我们在朴素贝叶斯分类器中不用计算这个概率值。”

这是因为我们最终是要找出哪个类别的 后验概率最大，而 P(data) 在所有类别下是相同的常数，不影响最终排序。换句话说：

$\arg\max_{c \in \text{classes}} P(\text{class}_c | \text{data}) = \arg\max_{c} P(\text{data} | \text{class}_c) \cdot P(\text{class}_c)$

五、朴素贝叶斯的“朴素”在哪里？

朴素贝叶斯的“朴素”，来源于它对特征之间的条件独立性假设，即：

在给定类别的情况下，所有特征之间相互独立。

虽然这个假设在现实中很少严格成立，但它在许多实际任务中仍然表现良好，尤其是特征之间冗余较少、噪声较小的任务场景。

六、高斯朴素贝叶斯的优缺点

优点：

训练速度快：只需要计算每个特征的均值和方差
对小数据集有效：不易过拟合
对高维数据效果好：如文本分类、基因数据分析

缺点：

特征独立假设过于强烈
对于特征不服从正态分布的数据效果较差
对异常值敏感

七、应用场景举例

垃圾邮件识别（Spam Classification）
情感分析（Sentiment Analysis）
医疗诊断预测
用户行为分类
文本主题识别

八、总结

通过这张图我们可以清晰地了解到：

高斯朴素贝叶斯的公式来源于贝叶斯定理
用高斯分布来模拟连续特征的似然性
分类时无需计算 P(data)，直接比较分子大小即可

尽管假设朴素，但这种方法却在现实中屡屡奏效，是你在机器学习中不可忽视的一种基础算法。

图源注：原图由 Chris Albon 绘制，本文为其内容的中文解析与整理。

如果你觉得本文有帮助，欢迎点赞、收藏、评论支持我继续更新更多机器学习原理图解系列！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。