中文数据集
- THUCNews数据集:根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
- 中文新闻标题数据集[1]:中文新闻标题数据集包含可供训练的32类(即新闻主题)标题47,952个,可供测试的新闻标题15,986个。在删除这些包含不能处理的特殊字符的标题后,我们保留了47,850个训练标题和15,950个测试标题(即#DataSet1)。
- 发票数据集[2]:来源于安徽省科技支撑计划项目(No.1704a0902029)的真实发票数据集.总共4200个类别,650万人工标记数据和1000万未标记数据。
英文数据集
参考文献:
[1] 2016-Compositional Recurrent Neural Networks for Chinese Short Text Classification
[2] 2020-A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words