文章目录
朴素⻉叶斯算法
1.朴素⻉叶斯优缺点
优点:
- 朴素⻉叶斯模型发源于古典数学理论,有稳定的分类效率
- 对缺失数据不太敏感,算法也⽐较简单,常⽤于⽂本分类
- 分类准确度⾼,速度快
缺点: - 由于使⽤了样本属性独⽴性的假设,所以如果特征属性有关联时其效果不好
- 需要计算先验概率,⽽先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设 的先验模型的原因导致预测效果不佳;
2.朴素⻉叶斯内容汇总
2.1 NB的原理
朴素⻉叶斯法是基于⻉叶斯定理与特征条件独⽴假设的分类⽅法。
对于给定的待分类项x,通过学习到的模型计算后验概率分布, 即:在此项出现的条件下各个⽬标类别出现的概率,将后验概率最⼤的类作为x所属的类别。
2.2 朴素⻉叶斯朴素在哪⾥?
在计算条件概率分布P(X=x∣Y=c_k)时,NB引⼊了⼀个很强的条件独⽴假设,即当Y确定时,X的各个特征分量取值之间相互独⽴。
2.3 为什么引⼊条件独⽴性假设?
为了避免⻉叶斯定理求解时⾯临的组合爆炸、样本稀疏问题。
假设条件概率分为
2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办?
解决这⼀问题的⽅法是采⽤⻉叶斯估计。
简单来说,引⼊λ,
当λ=0时,就是普通的极⼤似然估计; 当λ=1时称为拉普拉斯平滑。
2.5 为什么属性独⽴性假设在实际情况中很难成⽴,但朴素⻉叶斯仍能取得较好的效果?
- ⼈们在使⽤分类器之前,⾸先做的第⼀步(也是最重要的⼀步)往往是特征选择,这个过程的⽬的就是为了排除特征之间的共线性、选择相对较为独⽴的特征;
- 对于分类任务来说,只要各类别的条件概率排序正确,⽆需精准概率值就可以得出正确分类;
- 如果属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独⽴性假设在降低计算复杂度的 同时不会对性能产⽣负⾯影响。
2.6 朴素⻉叶斯与LR的区别?
1)简单来说:
区别⼀:
朴素⻉叶斯是⽣成模型,
- 根据已有样本进⾏⻉叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),
- 进⽽求出联合分布概率P(XY),
- 最后利⽤⻉叶斯定理求解P(Y|X),
⽽LR是判别模型,
- 根据极⼤化对数似然函数直接求出条件概率P(Y|X);
区别⼆:
- 朴素⻉叶斯是基于很强的条件独⽴假设(在已知分类Y的条件下,各个特征变量取值是相互独⽴的),
- ⽽LR则对此没有要求;
区别三:
- 朴素⻉叶斯适⽤于数据集少的情景,
- ⽽LR适⽤于⼤规模数据集。
2)进⼀步说明:
前者是⽣成式模型,后者是判别式模型,⼆者的区别就是⽣成式模型与判别式模型的区别。
⾸先,Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进⽽求 出后验概率。也就是说,它尝试去找到底这个数据是怎么⽣成的(产⽣的),然后再进⾏分类。哪个类别最有可能 产⽣这个信号,就属于那个类别。
- 优点: 样本容量增加时,收敛更快;隐变量存在时也可适⽤。
- 缺点:时间⻓;需要样本多;浪费计算资源
相⽐之下,Logistic回归不关⼼样本中类别的⽐例及类别下出现特征的概率,它直接给出预测模型的式⼦。设每个 特征都有⼀个权重,训练样本数据更新权重w,得出最终表达式。
- 优点:
- 直接预测往往准确率更⾼;
- 简化问题;
- 可以反应数据的分布情况,类别的差异特征;
- 适⽤于较多类别的识别。
- 缺点
- 收敛慢;
- 不适⽤于有隐变量的情况。