机器学习算法之--朴素贝叶斯总结

本文深入探讨朴素贝叶斯算法,包括其数学原理、贝叶斯定理、参数估计方法(极大似然估计与拉普拉斯平滑)、优缺点以及在文本分类和垃圾邮件筛选等领域的应用。同时,介绍了Python中sklearn库实现的高斯、多项式和伯努利三种类型的朴素贝叶斯分类器及其关键参数。
摘要由CSDN通过智能技术生成

一、朴素贝叶斯算法数学原理

朴素贝叶斯算法属于监督学习的生成学习模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。

(1)算法思路: 通过从训练数据学习先验概率分布和条件概率分布来学习联合概率分布,然后基于特征条件独立贝叶斯定理求得后验概率,将输入x分到后验概率最大的类别中,采用基于0,1损失函数下的期望风险最小化原则学习模型。

(2)两个特点

朴素: 假设各特征之间相互独立;(很强的假设,在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大)
贝叶斯: 基于贝叶斯定理。

贝叶斯公式推导如下:
贝叶斯公式推导
贝叶斯分类器
(3)参数估计方法:采用极大似然估计法/贝叶斯估计
采用极大似然估计法来估计先验概率和条件概率分布,但会出现所要估计的概率值为0的情况,所以采用贝叶斯估计,思路就是在随机变量各个取值后加一个正数a,当a=0时,即为极大似然估计法

特别的,当a=1时,叫做拉普拉斯平滑(参数为1时的贝叶斯估计),就是对先验概率的分子(划分的计数)加1,分母加上类别数;对条件概率分子加1,分母加上对应特征的可能取值数量。这样在解决零概率问题的同时,也保证了概率和依然为1。

(4)应用:
文本分类(互联网新闻的分类)
垃圾邮件的筛选

(5)优缺点:
优点:
算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可!)
数据较小的时候仍然有效,可分类多类别
分类过程中时空开销小&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值