目录
朴素贝叶斯分类器
朴素贝叶斯分类器是与线性模型非常相似的一种分类器,但它的训练速度往往更快。这种高效率所付出的代价是,朴素贝叶斯模型的泛化能力要比线性分类器(如LogisticRegression 和 LinearSVC)稍差。
朴素贝叶斯模型如此高效的原因在于,它通过单独查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据。
scikit-learn 中实现了三种朴素贝叶斯分类器:GaussianNB、
BernoulliNB 和 MultinomialNB。GaussianNB 可应用于任意连续数据,而
BernoulliNB 假定输入数据为二分类数据,MultinomialNB 假定输入数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句子里出现的次数)。BernoulliNB 和MultinomialNB 主要用于文本数据分类。
BernoulliNB 分类器计算每个类别中每个特征不为 0 的元素个数。