NLP之数据集探索
1、IMDB数据集下载和探索
2、THUCNews数据集下载和探索
数据集链接: https://pan.baidu.com/s/15p_W4EPXEVSZ7GxQ_lkISg
提取码:0mmy
参考链接:
1、CNN字符级中文文本分类-基于TensorFlow实现
2、text-classification-cnn-rnn
(1)、数据集介绍
数据集的详细介绍参见这篇说明:http://thuctc.thunlp.org/
THUCTC: 是由清华大学自然语言处理实验室推出的中文文本分类工具包。
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。