Sklearn提供三种朴素贝叶斯模型
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
模型名称 | 中文释义 | 数据分布 | 特征特点 |
---|---|---|---|
GaussianNB | 高斯朴素贝叶斯模型 | 连续式数据 | 特征的数据是连续的,比如人的身高从1.7~1.9之间可以用曲线图表示 |
BernoulliNB | 伯努利朴素贝叶斯模型 | 离散式数据 | 所有特征必须是0或1,表示出现或不出现 |
MultinomialNB 管 | 多项式朴素贝叶斯模型 | 离散式数据 | 适用于文本分类,计算某些词出现的概率 |
优点
1.对小规模的数据表现好,适合增量学习
增量学习:指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识无需保存历史数据,从而减少储存空间的占用;另一方面增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间,当数据很大的时候,有几百个特征,内存是一次性容纳不下的,通过增量学习能够有效的处理。
2.对缺失数据不敏感,对训练样本的特征与类别只是计算概率
缺点
1.假设样本的独立性,偏离实际,因为实际生活中假设往往不成立,因此朴素贝叶斯算法实际的应用是有限制的
2.针对不同的输入数据,需要使用不同的模型,对于输入的数据类型敏感