这里首先介绍一篇基于深度学习的文本分类综述,《Deep Learning Based Text Classification: A Comprehensive Review》,论文来源:https://arxiv.org/abs/2004.03705
详解见 Deep Learning Based Text Classification (文本分类综述)。
文本分类数据集
Deep Learning Based Text Classification: A Comprehensive Review一文中提到了很多的文本分类的数据集,大多数是英文的。
下面列出一些中文文本分类数据集:
数据集 | 说明 | 链接 |
---|---|---|
THUCNews | THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。 包含财经、彩票、房产、股票、家居、教育等14个类别。 原始数据集见:链接 |
下载地址 |
今日头条 | 来源于今日头条,为短文本分类任务,数据包含15个类别 | 下载地址 |
IFLYTEK | 1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别 |