史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。
项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch
具体数据集:
baike_qa2019 百科类问答json版
https://aistudio.baidu.com/datasetdetail/107726
DataFountain产品评论观点提取数据集
https://aistudio.baidu.com/datasetdetail/110473
医疗数据
https://github.com/Toyhom/-_Chinese-medical-dialogue-data
TED演讲数据集
https://www.heywhale.com/mw/dataset/5a72b685cec86121fb01998f
女性用户网购服装反馈数据集
https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30
新闻类别数据集
https://www.heywhale.com/mw/dataset/5b582435a711e6001092bcf7
中华古诗数据集
https://www.heywhale.com/mw/dataset/58a65247d70b31669ea2d5d9
该数据集包含唐宋两朝近1.4万古诗人, 接近5.5万首唐诗和26万首宋诗数据
中文敏感词库
https://www.heywhale.com/mw/dataset/5ecf6214162df90036ddfcff
人民日报文章数据集(1979-2010)
https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19
人民日报文章数据集(1949-1978)
https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b
1998人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3
知乎大厂offer热门问题
https://www.heywhale.com/mw/dataset/5ffbf2ea3441fd0015397f1f
金融行业问答数据集
https://www.heywhale.com/mw/dataset/5e9588f8e7ec38002d0331b1
77万条金融行业问答数据
知乎拼多多热门问题数据集
https://www.heywhale.com/mw/dataset/5ffbf3173441fd0015397f6f
英文语句文本数据集
https://www.heywhale.com/mw/dataset/5a69a63dafceb51770d6246a
英文歌词数据集
https://www.heywhale.com/mw/dataset/5aab8085afaabd5e93e4e027
英文作文写作文本数据
https://www.heywhale.com/mw/dataset/5a77f29a4c81a9152e663238
中国对联数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d
sentiment140情感分析数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d
2016-2019新闻联播语料库
https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5
6000条周杰伦微博超话数据!
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa
新型冠状病毒🦠🦠COVID-19相关标签的推文数据集
https://www.heywhale.com/mw/dataset/5e830205246a590036b907e2
TibetanMNIST藏文手写数字数据集
https://www.heywhale.com/mw/dataset/5bfe734a954d6e0010683839
中文谣言语料库
https://www.heywhale.com/mw/dataset/5d257f87688d36002c579342
基金评论数据
https://www.heywhale.com/mw/dataset/5fe2a7f983e4460030ac0e70
本数据收录天天基金上网友们对5400多只基金的评论标题
COVID-19医学对话数据集
https://www.heywhale.com/mw/dataset/5e8f4d79e7ec38002d0123f4
中文对话数据集
https://www.heywhale.com/mw/dataset/5de4d2dfca27f8002c4c645b
word2vec中文词向量数据集
https://www.heywhale.com/mw/dataset/5dd65425a0cb22002c94f05b
中文百科类问答json版数据集
https://www.heywhale.com/mw/dataset/5dd78894f41512002ceb28e5
医学信息提取数据集
https://www.heywhale.com/mw/dataset/5df876212823a10036ac9b9d
该数据集包含从PubMed摘要中提取的3984个医学句子,并注释了离散医学术语之间的关系
社会偏见推断语料库
https://www.heywhale.com/mw/dataset/611a2fd7aca2460017a69472/file
复旦大学中文文本分类语料库
https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04
THUCNews新闻文本分类数据集
https://www.heywhale.com/mw/dataset/5de4b6d0ca27f8002c4c530a
7K条携程酒店评论数据
https://www.heywhale.com/mw/dataset/5e620482b8dfce002d803622
2014人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ceb54a7d10470002b3679cb
网易云精彩评论数据集
https://www.heywhale.com/mw/dataset/5eb69b4d366f4d002d77d63c
2万条中文金融新闻数据集
https://www.heywhale.com/mw/dataset/5eb69242366f4d002d77d2b7/content
LCSTS短文本新闻摘要数据库
https://www.heywhale.com/mw/dataset/5e6740a5f278cf002d5335b8
B站 bilibili流行动漫影评数据
https://www.heywhale.com/mw/dataset/5d3a76dfcf76a600360e19c9
电商女装评论数据集
https://www.heywhale.com/mw/dataset/5ce604dd0ee9cd002cd066e7/file
中文新闻数据集
https://www.heywhale.com/mw/dataset/5d8878638499bc002c1148f7/content
6万多条中文电商评论数据
https://www.heywhale.com/mw/dataset/5e620784b8dfce002d803868
社区问答数据集
https://www.heywhale.com/mw/dataset/5de601f3ca27f8002c4cac47/content
京东迪奥口红的商品评论数据集
https://www.heywhale.com/mw/dataset/5f44d706835fe7002d9954c2/file
IMDB电影评论数据
https://www.heywhale.com/mw/dataset/5d143d41708b90002c5f7021
微博谣言以及其转发评论
https://www.heywhale.com/mw/dataset/5d2582c6688d36002c579791/content
中文姓名语料库
https://www.heywhale.com/mw/dataset/5cc7fd068c90d7002c8770c1
CNN/DailyMail新闻数据集
https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
电影对白数据集(聊天机器人)
https://www.heywhale.com/mw/dataset/5bc2b3823631bc00109d123f
《中餐厅3》19W弹幕数据
https://www.heywhale.com/mw/dataset/5d7b69798499bc002c0d3ec5/file
中文对话情绪语料
https://www.heywhale.com/mw/dataset/5d00c390e727f8002c4599ad/content
网易新闻语料库
https://www.heywhale.com/mw/dataset/5caaea238408c1002b4b4bb2
百度知道问答数据集
https://www.heywhale.com/mw/dataset/5ed5bdcb946a0e002cb6cbf6
市场资讯新闻数据集
https://www.heywhale.com/mw/dataset/5e577a780e2b66002c2561a9
淘宝客服对话数据集
https://www.heywhale.com/mw/dataset/5e50cb410e2b66002c203007
辉瑞新冠🦠疫苗💉推文 数据集
https://www.heywhale.com/mw/dataset/5ff2cc27840381003b026201
Yelp(美国的大众点评)评论数据集
https://www.heywhale.com/mw/dataset/5d9ff4db037db3002d41749a/content
500万条微博语料
https://www.heywhale.com/mw/dataset/5db9207b080dc300371e4a12
Amazon食品评论数据
https://www.heywhale.com/mw/dataset/5df35bae2823a10036ab9ac6
维基百科中文语料库
https://www.heywhale.com/mw/dataset/5d1ee7939f53a9002ce5910e/file
鬼吹灯豆瓣短评数据集
https://www.heywhale.com/mw/dataset/5eb26afa366f4d002d761c9b/file
1946年-2003年人民日报 新闻语料库
https://www.heywhale.com/mw/dataset/605da1e8ce98c30015d46894
中文阅读理解数据集
https://www.heywhale.com/mw/dataset/5cac63a68408c1002b4be284
丁香园论坛疫情讨论数据
https://www.heywhale.com/mw/dataset/5e48225b17aec8002dc6119c
瑞金医院糖尿病数据集
https://www.heywhale.com/mw/dataset/5fd09ece1a34b90030b5343c
保险行业语料库
https://www.heywhale.com/mw/dataset/5cfdfaf5e727f8002c368bb7
搜狗全网新闻数据(SogouCA)
https://www.heywhale.com/mw/dataset/5e5f757fb8dfce002d7f5008/content
Reddit上WallStreetBets(WSB)社区帖子数据
https://www.heywhale.com/mw/dataset/601a58bfa93d4a00153a666b/content
8K条保险行业问答中文数据
https://www.heywhale.com/mw/dataset/5e620d2db8dfce002d803d6d
播客评论数据集
https://www.heywhale.com/mw/dataset/5ed9ef92b772f5002d6e2520/content
台达阅读理解资料集
https://www.heywhale.com/mw/dataset/5ddf2edeca27f8002c4aa48c
PubMedQA生物医学研究问题解答数据集
https://www.heywhale.com/mw/dataset/5f194f2394d484002d2d187f/file
安然(Enron)内部邮件数据集
https://www.heywhale.com/mw/dataset/5db9007d080dc300371e3f5c/content
字频数据
https://www.heywhale.com/mw/dataset/5cef9c0fc84534002bffc80a
纽约时报评论数据集
https://www.heywhale.com/mw/dataset/5cb9581f8c90d7002c805334/file
eICU电子病历官方Demo数据集
https://www.heywhale.com/mw/dataset/604887ec89c874001525dfd4/content
350篇互联网文章数据集
https://www.heywhale.com/mw/dataset/5ec7693d8a793f002dbd5020/content
中医药古籍文本数据集
https://www.heywhale.com/mw/dataset/5e50c28c0e2b66002c202692/content
中文突发事件语料库
https://www.heywhale.com/mw/dataset/5cef908fc84534002bff84a8/content
中文医疗对话数据集
https://www.heywhale.com/mw/dataset/5e4fbd4e0e2b66002c1fa34f/file