sklearn——朴素贝叶斯文本分类3

最新推荐文章于 2023-10-23 17:33:04 发布

panghaomingme

最新推荐文章于 2023-10-23 17:33:04 发布

阅读量2k

点赞数

分类专栏： Scikit Learn

本文链接：https://blog.csdn.net/panghaomingme/article/details/54428835

版权

Scikit Learn 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在分类前对文本进行预处理，去除停用词

代码：

# -*- coding: utf-8 -*-
"""
Created on Sat Jan 14 21:03:17 2017

@author: 54376
"""

# 从sklearn.datasets里导入20类新闻文本数据抓取器。
from sklearn.datasets import fetch_20newsgroups
# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。
news = fetch_20newsgroups(subset='all')

# 从sklearn.cross_validation导入train_test_split模块用于分割数据集。
from sklearn.cross_validation import train_test_split
# 对news中的数据data进行分割，25%的文本用作测试集；75%作为训练集。
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

# 继续沿用代码56与代码57中导入的工具包（在同一份源代码中，或者不关闭解释器环境），分别使用停用词过滤配置初始化CountVectorizer与TfidfVectorizer。
count_filter_vec, tfidf_filter_vec = CountVectorizer(analyzer='word', stop_words='english'), TfidfVectorizer(analyzer='word', stop_words='english')

# 使用带有停用词过滤的CountVectorizer对训练和测试文本分别进行量化处理。
X_count_filter_train = count_filter_vec.fit_transform(X_train)
X_count_filter_test = count_filter_vec.transform(X_test)

# 使用带有停用词过滤的TfidfVectorizer对训练和测试文本分别进行量化处理。
X_tfidf_filter_train = tfidf_filter_vec.fit_transform(X_train)
X_tfidf_filter_test = tfidf_filter_vec.transform(X_test)

# 初始化默认配置的朴素贝叶斯分类器，并对CountVectorizer后的数据进行预测与准确性评估。
mnb_count_filter = MultinomialNB()
mnb_count_filter.fit(X_count_filter_train, y_train)
print ('The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering stopwords):', mnb_count_filter.score(X_count_filter_test, y_test))
y_count_filter_predict = mnb_count_filter.predict(X_count_filter_test)

# 初始化另一个默认配置的朴素贝叶斯分类器，并对TfidfVectorizer后的数据进行预测与准确性评估。
mnb_tfidf_filter = MultinomialNB()
mnb_tfidf_filter.fit(X_tfidf_filter_train, y_train)
print ('The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering stopwords):', mnb_tfidf_filter.score(X_tfidf_filter_test, y_test))
y_tfidf_filter_predict = mnb_tfidf_filter.predict(X_tfidf_filter_test)

# 对上述两个模型进行更加详细的性能评估。
from sklearn.metrics import classification_report
print (classification_report(y_test, y_count_filter_predict, target_names = news.target_names))
print (classification_report(y_test, y_tfidf_filter_predict, target_names = news.target_names))

结果：

分类效果有很大的提升

panghaomingme

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
sklearn——朴素贝叶斯文本分类3

在分类前对文本进行预处理，去除停用词代码：# -*- coding: utf-8 -*-"""Created on Sat Jan 14 21:03:17 2017@author: 54376"""# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即
复制链接

扫一扫