中文新闻分类 数据集_别找了,送你 20 个文本数据集

源 / DataCastle数据城堡

中科大自然语言处理与信息检索共享平台

http://www.nlpir.org/?action-category-catid-28

7b099d2408f81895b56041e11e29bfab.png

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集,但时间比较早,多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

31e25fdf454c7957d0c464424177a82b.png

中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。

http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

3014232084d6037dddc9303a5d0dc2be.png

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

a669586548a9b79f7687ff821e2d933d.png

清华大学开放中文词库

http://thuocl.thunlp.org/

2e7f865f6af0443067e6e3421bae18aa.png

中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

https://github.com/chinese-poetry/chinese-poetry

c7ebfe88776fbc9778e4c9b6204177e1.png

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

504f565161734eaa8f3ad12020896573.png

《口袋妖怪》跨语种命名对照数据集

任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。

https://pokewiki.de/index.php?title=Pok%C3%A9mon-Liste

4bee81a64b9e4a2ce94ee104e7915e4e.png

中国宗教用户关键词列表

https://www.dcjingsai.com/common/share/73.html

173ca94e62860207c420caab144db502.png

1998年《人民日报》词性标注库

https://pan.baidu.com/s/1gd6mslt

8d1c0d9456769cd470879cabe1b27974.png

中文突发事件语料库

https://github.com/shijiebei2009/CEC-Corpus

a7f192c1e96147126d1a2894e0e42630.png

中国股市爬取信息数据集

https://github.com/startprogress/China_stock_announcement

94b84066ea64b9df341e9ada40ca15f8.png

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

3fb2786cdd346716700536c1d6994f7a.png

Tushare财经数据接口

TuShare是一个免费、开源的python财经数据接口包。

http://tushare.org/

1760c3760279a371e19bc59dea624c0a.png

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

3603689ccff2310ee26eeb6c2c09cac3.png

中文人名语料库

包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。

https://github.com/wainshine/Chinese-Names-Corpus

d2339090594924561b4d851b49358ae6.png

中文简称数据集

https://github.com/zhangyics/Chinese-abbreviation-dataset

f873556b7866fb9cd67bf5de2850f396.png

汉字拆字字典

https://github.com/kfcd/chaizi

45a913ecb542c2611f6932e0668528dc.png

中文实体情感知识库

刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。

https://github.com/rainarch/SentiBridge

44506d30a6ab71e6babea3996b42cf33.png

中文对话情感分析数据集

https://github.com/z17176/Chinese_conversation_sentiment

0f1d26bc8d6cee3a9eafb3923077b35f.png

推荐阅读

再次重申 5 个Python 的坏习惯

全军覆没!麻省理工零录取中国学生,斯坦福取消中国大陆面试! 这是怎么了?

教你用Python感知女朋友的情绪变化!

a106ced07b01fdd44c6f3df3e809f4e3.png

喜欢就点击“在看”吧!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值