中文自然语言处理语料/数据集
SophonPlus/ChineseNlpCorpusgithub.com搜狗实验室
搜狗实验室(Sogou Labs)www.sogou.com中文文本分类数据集THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
THUCTC: 一个高效的中文文本分类工具thuctc.thunlp.org