短文本分类数据集总结（持续更新……）

最新推荐文章于 2025-02-19 14:58:57 发布

林若漫空

最新推荐文章于 2025-02-19 14:58:57 发布

阅读量2.4k

点赞数 4

分类专栏：短文本分类文章标签：深度学习

本文链接：https://blog.csdn.net/qq_36291847/article/details/115455226

版权

短文本分类专栏收录该内容

20 篇文章

订阅专栏

中文数据集

THUCNews数据集：根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
中文新闻标题数据集[1]：中文新闻标题数据集包含可供训练的32类(即新闻主题)标题47,952个，可供测试的新闻标题15,986个。在删除这些包含不能处理的特殊字符的标题后，我们保留了47,850个训练标题和15,950个测试标题(即#DataSet1)。
发票数据集[2]：来源于安徽省科技支撑计划项目(No.1704a0902029)的真实发票数据集.总共4200个类别，650万人工标记数据和1000万未标记数据。

英文数据集

参考文献：
[1] 2016-Compositional Recurrent Neural Networks for Chinese Short Text Classification
[2] 2020-A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words