【机器学习 sklearn 】朴素贝叶斯naive_bayes

最新推荐文章于 2023-12-23 22:46:03 发布

置顶东华果汁哥

最新推荐文章于 2023-12-23 22:46:03 发布

阅读量2.4k

点赞数 1

分类专栏：数据科学--机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u013421629/article/details/78625337

版权

数据科学--机器学习专栏收录该内容

116 篇文章 29 订阅

订阅专栏

代码片段：

# encoding: utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import pandas as pd
import chardet
df = pd.read_csv('news.txt', sep='\t', dtype=str, na_filter=False)
X=df['data']
y=df['target']

# 从sklearn.model_selection 导入 train_test_split。
from sklearn.model_selection import train_test_split
# 随机采样25%的数据样本作为测试集。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)

# 从sklearn.feature_extraction.text里导入用于文本特征向量转化模块。详细介绍请读者参考3.1.1.1 特征抽取一节。
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
X_train = vec.fit_transform(X_train)
X_test = vec.transform(X_test)

# 从sklearn.naive_bayes里导入朴素贝叶斯模型。
from sklearn.naive_bayes import MultinomialNB

# 从使用默认配置初始化朴素贝叶斯模型。
mnb = MultinomialNB()
# 利用训练数据对模型参数进行估计。
mnb.fit(X_train, y_train)
# 对测试样本进行类别预测，结果存储在变量y_predict中。
y_predict = mnb.predict(X_test)



# 从sklearn.metrics里导入classification_report用于详细的分类性能报告。
from sklearn.metrics import classification_report
print 'The accuracy of Naive Bayes Classifier is', mnb.score(X_test, y_test)
print classification_report(y_test, y_predict)