机器学习算法之--朴素贝叶斯总结

最新推荐文章于 2024-08-12 11:34:02 发布

努力努力再努力F_

最新推荐文章于 2024-08-12 11:34:02 发布

阅读量865

点赞数 1

分类专栏：机器学习算法进阶之路

本文链接：https://blog.csdn.net/qq_39751437/article/details/86521044

版权

本文深入探讨朴素贝叶斯算法，包括其数学原理、贝叶斯定理、参数估计方法（极大似然估计与拉普拉斯平滑）、优缺点以及在文本分类和垃圾邮件筛选等领域的应用。同时，介绍了Python中sklearn库实现的高斯、多项式和伯努利三种类型的朴素贝叶斯分类器及其关键参数。

摘要由CSDN通过智能技术生成

一、朴素贝叶斯算法数学原理

朴素贝叶斯算法属于监督学习的生成学习模型，实现简单，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。

(1)算法思路： 通过从训练数据学习先验概率分布和条件概率分布来学习联合概率分布，然后基于特征条件独立和贝叶斯定理求得后验概率，将输入x分到后验概率最大的类别中，采用基于0,1损失函数下的期望风险最小化原则学习模型。

(2)两个特点

朴素: 假设各特征之间相互独立；（很强的假设，在大量样本下会有较好的表现，不适用于输入向量的特征条件有关联的场景。在现实中不太可能成立，但是它可以大大简化计算，而且有研究表明对分类结果的准确性影响不大）
贝叶斯: 基于贝叶斯定理。

贝叶斯公式推导如下：

贝叶斯分类器
(3)参数估计方法：采用极大似然估计法/贝叶斯估计
采用极大似然估计法来估计先验概率和条件概率分布，但会出现所要估计的概率值为0的情况，所以采用贝叶斯估计，思路就是在随机变量各个取值后加一个正数a，当a=0时，即为极大似然估计法

特别的，当a=1时，叫做拉普拉斯平滑（参数为1时的贝叶斯估计），就是对先验概率的分子（划分的计数）加1，分母加上类别数；对条件概率分子加1，分母加上对应特征的可能取值数量。这样在解决零概率问题的同时，也保证了概率和依然为1。

(4)应用：
文本分类（互联网新闻的分类）
垃圾邮件的筛选

(5)优缺点：
优点：
算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可！）
数据较小的时候仍然有效，可分类多类别
分类过程中时空开销小&

关注

专栏目录