应用scikit-learn做文本分类

最新推荐文章于 2024-07-30 11:11:01 发布

Rachel-Zhang

最新推荐文章于 2024-07-30 11:11:01 发布

阅读量9.9w

点赞数 30

分类专栏： Data Mining Machine Learning Python 文章标签： 20newsgroups 文本挖掘 Python scikit scipy

本文链接：https://blog.csdn.net/abcjennifer/article/details/23615947/

版权

本文介绍了使用scikit-learn库在20newsgroups数据集上进行文本分类的过程，包括Naive Bayes、KNN和SVM方法，并展示了不同方法的精度、召回率和F1分数。实验结果显示，全特征情况下，SVM表现最优。

摘要由CSDN通过智能技术生成

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！

嗯，说正文。20newsgroups官网上给出了3个数据集，这里我们用最原始的20news-19997.tar.gz。

分为以下几个过程：

加载数据集
提feature
分类
- Naive Bayes
- KNN
- SVM

聚类

说明： scipy官网上有参考，但是看着有点乱，而且有bug。本文中我们分块来看。

Environment： Python 2.7 + Scipy （scikit-learn）

1.加载数据集

从20news-19997.tar.gz下载数据集，解压到scikit_learn_data文件夹下，加载数据，详见code注释。

#first extract the 20 news_group dataset to /scikit_learn_data
from sklearn.datasets import fetch_20newsgroups
#all categories
#newsgroup_train = fetch_20newsgroups(subset='train')
#part categories
categories = ['comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x'];
newsgroup_train = fetch_20newsgroups(subset = 'train',categories = categories);

可以检验是否load好了：

#print category names
from pprint import pprint
pprint(list(newsgroup_train.target_names))

结果：

['comp.graphics',
'comp.os.ms-windows.misc',
'comp.sys.ibm.pc.hardware',
'comp.sys.mac.hardware',
'comp.windows.x']

最低0.47元/天解锁文章

Rachel-Zhang

关注

30
点赞
踩
150

收藏

觉得还不错? 一键收藏
50
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录