在使用sklearn进行文本分类时,我们需要引入数据包。
当我们使用
from sklearn.datasets import fetch_20newsgroups
实际上会自动给你下载 20newsgroups 到scikit_learn_data 文件夹下面。但是往往会出现No handlers could be found for logger "sklearn.datasets.twenty_newsgroups" 提示,这显示当前文件夹下面没有该数据集,可能需要等待一段时间~。最后在该文件夹下面会出现一个20news-bydate.pkz文件,这就是显示已经获取了该数据集。不知道是不是网络的原因,感觉出现这个 20news-bydate.pkz文件 等了好久。现在我上传,供大家下载使用
下载链接 20news-bydate.pkz