【机器学习】朴素⻉叶斯算法


朴素⻉叶斯算法

1.朴素⻉叶斯优缺点

优点:

  • 朴素⻉叶斯模型发源于古典数学理论,有稳定的分类效率
  • 缺失数据不太敏感,算法也⽐较简单,常⽤于⽂本分类
  • 分类准确度⾼,速度快
    缺点:
  • 由于使⽤了样本属性独⽴性的假设,所以如果特征属性有关联时其效果不好
  • 需要计算先验概率,⽽先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设 的先验模型的原因导致预测效果不佳;

2.朴素⻉叶斯内容汇总

2.1 NB的原理

朴素⻉叶斯法是基于⻉叶斯定理与特征条件独⽴假设的分类⽅法。

对于给定的待分类项x,通过学习到的模型计算后验概率分布, 即:在此项出现的条件下各个⽬标类别出现的概率,将后验概率最⼤的类作为x所属的类别。

2.2 朴素⻉叶斯朴素在哪⾥?

在计算条件概率分布P(X=x∣Y=c_k)时,NB引⼊了⼀个很强的条件独⽴假设,即当Y确定时,X的各个特征分量取值之间相互独⽴。

2.3 为什么引⼊条件独⽴性假设?

为了避免⻉叶斯定理求解时⾯临的组合爆炸、样本稀疏问题。

假设条件概率分为
在这里插入图片描述

2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办?

解决这⼀问题的⽅法是采⽤⻉叶斯估计。

简单来说,引⼊λ,

当λ=0时,就是普通的极⼤似然估计; 当λ=1时称为拉普拉斯平滑。

2.5 为什么属性独⽴性假设在实际情况中很难成⽴,但朴素⻉叶斯仍能取得较好的效果?
  • ⼈们在使⽤分类器之前,⾸先做的第⼀步(也是最重要的⼀步)往往是特征选择,这个过程的⽬的就是为了排除特征之间的共线性、选择相对较为独⽴的特征;
  • 对于分类任务来说,只要各类别的条件概率排序正确,⽆需精准概率值就可以得出正确分类;
  • 如果属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独⽴性假设在降低计算复杂度的 同时不会对性能产⽣负⾯影响。
2.6 朴素⻉叶斯与LR的区别?

1)简单来说:

区别⼀:

朴素⻉叶斯是⽣成模型,

  • 根据已有样本进⾏⻉叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),
  • 进⽽求出联合分布概率P(XY),
  • 最后利⽤⻉叶斯定理求解P(Y|X),

⽽LR是判别模型,

  • 根据极⼤化对数似然函数直接求出条件概率P(Y|X);

区别⼆:

  • 朴素⻉叶斯是基于很强的条件独⽴假设(在已知分类Y的条件下,各个特征变量取值是相互独⽴的),
  • ⽽LR则对此没有要求;

区别三:

  • 朴素⻉叶斯适⽤于数据集少的情景,
  • ⽽LR适⽤于⼤规模数据集。

2)进⼀步说明:

前者是⽣成式模型,后者是判别式模型,⼆者的区别就是⽣成式模型与判别式模型的区别。

⾸先,Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进⽽求 出后验概率。也就是说,它尝试去找到底这个数据是怎么⽣成的(产⽣的),然后再进⾏分类。哪个类别最有可能 产⽣这个信号,就属于那个类别。

  • 优点: 样本容量增加时,收敛更快;隐变量存在时也可适⽤。
  • 缺点:时间⻓;需要样本多;浪费计算资源

相⽐之下,Logistic回归不关⼼样本中类别的⽐例及类别下出现特征的概率,它直接给出预测模型的式⼦。设每个 特征都有⼀个权重,训练样本数据更新权重w,得出最终表达式。

  • 优点:
    • 直接预测往往准确率更⾼;
    • 简化问题;
    • 可以反应数据的分布情况,类别的差异特征;
    • 适⽤于较多类别的识别。
  • 缺点
    • 收敛慢;
    • 不适⽤于有隐变量的情况。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值