# sklearn实现多项式朴素贝叶斯

# --*-- coding:utf-8 --*--
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

news = fetch_20newsgroups(subset='all')
# 输出文本数量
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)
# 调用文本转向量函数CountVectorizer()
vec = CountVectorizer()
# 用fit_trainsform先对文本拟合再将其转换为向量
x_train = vec.fit_transform(X_train)
'''由于上一步已经对训练集进行拟合过了,这里不能再次对测试集进行拟合,否则会出现训练向量
和测试向量尺寸不匹配问题,这是由文本转向量过程造成的.文本转向量原理稍后编程说明.
'''
x_test = vec.transform(X_test)
# 调用多项式朴素贝叶斯模型
mnb = MultinomialNB()
# 用模型训练数据
mnb.fit(x_train, y_train)
# 测试模型
y_predict = mnb.predict(x_test)
# 输出预测
D:\anaconda\python.exe C:/Users/pc/Desktop/pypro/myfirst_pro.py
0.8397707979626485
------------------------------
------------------------------

precision    recall  f1-score   support

alt.atheism       0.86      0.86      0.86       201
comp.graphics       0.59      0.86      0.70       250
comp.os.ms-windows.misc       0.89      0.10      0.17       248
comp.sys.ibm.pc.hardware       0.60      0.88      0.72       240
comp.sys.mac.hardware       0.93      0.78      0.85       242
comp.windows.x       0.82      0.84      0.83       263
misc.forsale       0.91      0.70      0.79       257
rec.autos       0.89      0.89      0.89       238
rec.motorcycles       0.98      0.92      0.95       276
rec.sport.baseball       0.98      0.91      0.95       251
rec.sport.hockey       0.93      0.99      0.96       233
sci.crypt       0.86      0.98      0.91       238
sci.electronics       0.85      0.88      0.86       249
sci.med       0.92      0.94      0.93       245
sci.space       0.89      0.96      0.92       221
soc.religion.christian       0.78      0.96      0.86       232
talk.politics.guns       0.88      0.96      0.92       251
talk.politics.mideast       0.90      0.98      0.94       231
talk.politics.misc       0.79      0.89      0.84       188
talk.religion.misc       0.93      0.44      0.60       158

avg / total       0.86      0.84      0.82      4712

Process finished with exit code 0



# --*-- coding:utf-8 --*--

def vector(vector_model_list, data_list):
vector_for_output = [0] * len(vector_model_list)
for item in vector_model_list:
if item in data_list:
vector_for_output[vector_model_list.index(item)] = 1
return vector_for_output



1、先定义一个空列表a，列表长度与需要识别的特征列表b等长度，以0填充；
2、将文本读入并转换为字符串s；
3、提取b中的特征元素T，对比看特征T是否在s中，如果在，则将a中与T在b中相等索引元素设置为1
4、输出a即为输入文本s的文本向量。

# --*-- coding:utf-8 --*--

def vector(vector_model_list, data_list):
vector_for_output = [0] * len(vector_model_list)
for item in vector_model_list:
if item in data_list:
vector_for_output[vector_model_list.index(item)] = 1
return vector_for_output

vector1 = ['s', 'f', 'h', 'k', 'y']

sss = 'ftlykjzsdfkw'

d = vector(vector1, sss)
print(d)

D:\anaconda\python.exe C:/Users/pc/Desktop/pypro/ee.py

[1, 1, 0, 1, 1]

Process finished with exit code 0


vec = CountVectorizer()
x_train = vec.fit_transform(X_train)
x_test = vec.transform(X_test)


CountVectorize()是一个文本转换向量的类，fit_transform()和transform()两个函数都是转换函数，但是前一个是先匹配，再转换，特征列表是自己生成的，而后者若要实现对文本转换为向量，之前必须先对训练集fit()，否则会报错，其特征列表不能自己生成。在上面的代码中，我利用fit_transform()实现对X_train转换，利用transform()实现对X_test转换，是因为在生成x_test之前，x_train已经对训练集fit()过了，这里就不能再利用fit_transform()对x_test进行转换，否则会因为两次fit()过程自生成的特征列表不同造成生成的向量维度不匹配引起程序报错。