朴素贝叶斯分类器的构造基础是
基于贝叶斯定理与特征条件独立假设的分类方法,与基于线性假设的模型(线性分类器和支持向量机分类器)不同。
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
朴素贝叶斯有着广泛的实际应用环境,特别是在文本分类的任务中,包括新闻的分类,垃圾邮件的筛选。
下面使用经典的20类新闻文本作为试验数据:
Python源码:
#coding=utf-8
#load news data
from sklearn.datasets import fetch_20newsgroups
#-------------
from sklearn.cross_validation import train_test_split
#-------------
from sklearn.feature_extraction.text import CountVectorizer
#-------------
from sklearn.naive_bayes import MultinomialNB
#-------------
fr