文本分类数据集
搜狐新闻文本分类数据集
官网 https://www.sogou.com/labs/resource/list_news.php
数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g 提取码:fech
今日头条中文新闻(文本)分类数据集
https://github.com/fatecbf/toutiao-text-classfication-dataset
复旦中文文本分类语料库
https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国