朴素贝叶斯0概率参数的统计学习定制方法

DataToAI

已于 2022-03-28 11:31:10 修改

阅读量3.1k

点赞数

文章标签：概率论机器学习算法大数据

于 2022-03-15 15:51:56 首次发布

本文链接：https://blog.csdn.net/cljcmf/article/details/123503854

版权

1、朴素贝叶斯的0概率问题很常见，因为一般情况下样本集只能趋近而不能达到全集，必然就会存在0概率的特征。特别是在类样本比例不均衡的情况下，0概率的处理对召回率和精确率的影响很大。
2、贝叶斯0概率的处理方法一般采用拉普拉斯平滑，此方法在先验概率上偏向了小分类，在特征条件概率上偏向了大分类。这里需要理解拉普拉斯平滑的核心思想：平等对待新出现的样本与特征值。与M估计不同，这是保证整体先验概率得以稳步改进的必要前提。但是当小分类样本很少时，其中未出现特征的期望概率不一定会比大分类样本已经出现的特征概率低，也就是说，在样本比例严重不均衡的情况下，先验概率是需要被给予一定的怀疑概率的。
3、0概率问题的解决集中于应该赋予0概率特征什么样的概率值才能使预测效果最优化，拉普拉斯方法的目标是使各分类的概率期望稳定在原样本集的分类阈值的较小置信区间内。如果通过统计学习定制分类阈值，则可以放弃拉普拉斯方法或重新估计拉普拉斯方法的条件概率以达到更好的效果。一般情况下，影响0概率参数的自变量主要是贝叶斯统计过程中的各个参数，例如各分类样本数的比例以及特征数及其占分类的比例等。
4、遵守拉普拉斯平滑的核心思想，针对具体数据集可以尝试自行设计与调整0概率处理的参数，对0概参数在具体数据集上做统计学习优化即可。一般情况，当类样本比例不均衡很严重时，可以在整体准确率上超过完全按照拉普拉斯平滑实现的效果，特别是在小分类样本的召回率方面，可以按照实际需求得到有针对性地调整结果。
5、方法建议一，重新估计拉普拉斯方法的条件概率，不是直接使用拉普拉斯的方法计算，而是在具体数据集上统计学习0概率特征的条件概率值。特别注意当某个分类样本越少时，可以尝试给予0概率特征相对更大的概率，这正是拉普拉斯平滑忽略的因素。
6、方法建议二，等概率为各分类增加新样本与特征后重新计算贝叶斯概率，虽然整体概率上会偏向小分类，但如果使用分类阈值调节样本类召回率，效果能达到拉普拉斯平滑，使用起来还更简单，不需要统计特征值去重个数。