【机器学习】朴素⻉叶斯算法

最新推荐文章于 2022-12-13 08:38:41 发布

张小猪的家

最新推荐文章于 2022-12-13 08:38:41 发布

阅读量423

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39574469/article/details/119706797

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

- 朴素⻉叶斯算法

朴素⻉叶斯算法

1.朴素⻉叶斯优缺点

优点：

朴素⻉叶斯模型发源于古典数学理论，有稳定的分类效率
对缺失数据不太敏感，算法也⽐较简单，常⽤于⽂本分类
分类准确度⾼，速度快
缺点：
由于使⽤了样本属性独⽴性的假设，所以如果特征属性有关联时其效果不好
需要计算先验概率，⽽先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳；

2.朴素⻉叶斯内容汇总

2.1 NB的原理

朴素⻉叶斯法是基于⻉叶斯定理与特征条件独⽴假设的分类⽅法。

对于给定的待分类项x，通过学习到的模型计算后验概率分布，即：在此项出现的条件下各个⽬标类别出现的概率，将后验概率最⼤的类作为x所属的类别。

2.2 朴素⻉叶斯朴素在哪⾥？

在计算条件概率分布P(X=x∣Y=c_k)时，NB引⼊了⼀个很强的条件独⽴假设，即当Y确定时，X的各个特征分量取值之间相互独⽴。

2.3 为什么引⼊条件独⽴性假设？

为了避免⻉叶斯定理求解时⾯临的组合爆炸、样本稀疏问题。

假设条件概率分为
在这里插入图片描述

2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办？

解决这⼀问题的⽅法是采⽤⻉叶斯估计。

简单来说，引⼊λ，

当λ=0时，就是普通的极⼤似然估计；当λ=1时称为拉普拉斯平滑。

2.5 为什么属性独⽴性假设在实际情况中很难成⽴，但朴素⻉叶斯仍能取得较好的效果?

⼈们在使⽤分类器之前，⾸先做的第⼀步（也是最重要的⼀步）往往是特征选择，这个过程的⽬的就是为了排除特征之间的共线性、选择相对较为独⽴的特征；
对于分类任务来说，只要各类别的条件概率排序正确，⽆需精准概率值就可以得出正确分类；
如果属性间依赖对所有类别影响相同，或依赖关系的影响能相互抵消，则属性条件独⽴性假设在降低计算复杂度的同时不会对性能产⽣负⾯影响。

2.6 朴素⻉叶斯与LR的区别？

1）简单来说：

区别⼀：

朴素⻉叶斯是⽣成模型，

根据已有样本进⾏⻉叶斯估计学习出先验概率P(Y)和条件概率P(X|Y)，
进⽽求出联合分布概率P(XY),
最后利⽤⻉叶斯定理求解P(Y|X)，

⽽LR是判别模型，

根据极⼤化对数似然函数直接求出条件概率P(Y|X)；

区别⼆：

朴素⻉叶斯是基于很强的条件独⽴假设（在已知分类Y的条件下，各个特征变量取值是相互独⽴的），
⽽LR则对此没有要求；

区别三：

朴素⻉叶斯适⽤于数据集少的情景，
⽽LR适⽤于⼤规模数据集。

2）进⼀步说明：

前者是⽣成式模型，后者是判别式模型，⼆者的区别就是⽣成式模型与判别式模型的区别。

⾸先，Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例，计算联合概率，进⽽求出后验概率。也就是说，它尝试去找到底这个数据是怎么⽣成的（产⽣的），然后再进⾏分类。哪个类别最有可能产⽣这个信号，就属于那个类别。

优点：样本容量增加时，收敛更快；隐变量存在时也可适⽤。
缺点：时间⻓；需要样本多；浪费计算资源

相⽐之下，Logistic回归不关⼼样本中类别的⽐例及类别下出现特征的概率，它直接给出预测模型的式⼦。设每个特征都有⼀个权重，训练样本数据更新权重w，得出最终表达式。

优点：
- 直接预测往往准确率更⾼；
- 简化问题；
- 可以反应数据的分布情况，类别的差异特征；
- 适⽤于较多类别的识别。
缺点
- 收敛慢；
- 不适⽤于有隐变量的情况。

张小猪的家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】朴素⻉叶斯算法

文章目录朴素⻉叶斯算法1.朴素⻉叶斯优缺点2.朴素⻉叶斯内容汇总2.1 NB的原理2.2 朴素⻉叶斯朴素在哪⾥？2.3 为什么引⼊条件独⽴性假设？2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办？2.5 为什么属性独⽴性假设在实际情况中很难成⽴，但朴素⻉叶斯仍能取得较好的效果?2.6 朴素⻉叶斯与LR的区别？朴素⻉叶斯算法1.朴素⻉叶斯优缺点优点：朴素⻉叶斯模型发源于古典数学理论，有稳定的分类效率对缺失数据不太敏感，算法也⽐较简单，常⽤于⽂本分类分类准确度⾼，速度快缺点：由.
复制链接

扫一扫