【NLP-08】NLP的语料库整理

史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

具体数据集:
baike_qa2019 百科类问答json版
https://aistudio.baidu.com/datasetdetail/107726

DataFountain产品评论观点提取数据集
https://aistudio.baidu.com/datasetdetail/110473

医疗数据
https://github.com/Toyhom/-_Chinese-medical-dialogue-data

TED演讲数据集
https://www.heywhale.com/mw/dataset/5a72b685cec86121fb01998f

女性用户网购服装反馈数据集
https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30

新闻类别数据集
https://www.heywhale.com/mw/dataset/5b582435a711e6001092bcf7

中华古诗数据集
https://www.heywhale.com/mw/dataset/58a65247d70b31669ea2d5d9
该数据集包含唐宋两朝近1.4万古诗人, 接近5.5万首唐诗和26万首宋诗数据

中文敏感词库
https://www.heywhale.com/mw/dataset/5ecf6214162df90036ddfcff

人民日报文章数据集(1979-2010)
https://www.heywhale.com/mw/dataset/5c862b1ad635ff002ca2eb19

人民日报文章数据集(1949-1978)
https://www.heywhale.com/mw/dataset/5c8626031e7104002b380a4b

1998人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

知乎大厂offer热门问题
https://www.heywhale.com/mw/dataset/5ffbf2ea3441fd0015397f1f

金融行业问答数据集
https://www.heywhale.com/mw/dataset/5e9588f8e7ec38002d0331b1
77万条金融行业问答数据

知乎拼多多热门问题数据集
https://www.heywhale.com/mw/dataset/5ffbf3173441fd0015397f6f

英文语句文本数据集
https://www.heywhale.com/mw/dataset/5a69a63dafceb51770d6246a

英文歌词数据集
https://www.heywhale.com/mw/dataset/5aab8085afaabd5e93e4e027

英文作文写作文本数据
https://www.heywhale.com/mw/dataset/5a77f29a4c81a9152e663238

中国对联数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d

sentiment140情感分析数据集
https://www.heywhale.com/mw/dataset/5c46e6f42d8ef5002b736d6d

2016-2019新闻联播语料库
https://www.heywhale.com/mw/dataset/5d2d344c688d36002c5da8e5

6000条周杰伦微博超话数据!
https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa

新型冠状病毒🦠🦠COVID-19相关标签的推文数据集
https://www.heywhale.com/mw/dataset/5e830205246a590036b907e2

TibetanMNIST藏文手写数字数据集
https://www.heywhale.com/mw/dataset/5bfe734a954d6e0010683839

中文谣言语料库
https://www.heywhale.com/mw/dataset/5d257f87688d36002c579342

基金评论数据
https://www.heywhale.com/mw/dataset/5fe2a7f983e4460030ac0e70
本数据收录天天基金上网友们对5400多只基金的评论标题

COVID-19医学对话数据集
https://www.heywhale.com/mw/dataset/5e8f4d79e7ec38002d0123f4

中文对话数据集
https://www.heywhale.com/mw/dataset/5de4d2dfca27f8002c4c645b

word2vec中文词向量数据集
https://www.heywhale.com/mw/dataset/5dd65425a0cb22002c94f05b

中文百科类问答json版数据集
https://www.heywhale.com/mw/dataset/5dd78894f41512002ceb28e5

医学信息提取数据集
https://www.heywhale.com/mw/dataset/5df876212823a10036ac9b9d
该数据集包含从PubMed摘要中提取的3984个医学句子,并注释了离散医学术语之间的关系

社会偏见推断语料库
https://www.heywhale.com/mw/dataset/611a2fd7aca2460017a69472/file

复旦大学中文文本分类语料库
https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04

THUCNews新闻文本分类数据集
https://www.heywhale.com/mw/dataset/5de4b6d0ca27f8002c4c530a

7K条携程酒店评论数据
https://www.heywhale.com/mw/dataset/5e620482b8dfce002d803622

2014人民日报标注语料库(PFR)
https://www.heywhale.com/mw/dataset/5ceb54a7d10470002b3679cb

网易云精彩评论数据集
https://www.heywhale.com/mw/dataset/5eb69b4d366f4d002d77d63c

2万条中文金融新闻数据集
https://www.heywhale.com/mw/dataset/5eb69242366f4d002d77d2b7/content

LCSTS短文本新闻摘要数据库
https://www.heywhale.com/mw/dataset/5e6740a5f278cf002d5335b8

B站 bilibili流行动漫影评数据
https://www.heywhale.com/mw/dataset/5d3a76dfcf76a600360e19c9

电商女装评论数据集
https://www.heywhale.com/mw/dataset/5ce604dd0ee9cd002cd066e7/file

中文新闻数据集
https://www.heywhale.com/mw/dataset/5d8878638499bc002c1148f7/content

6万多条中文电商评论数据
https://www.heywhale.com/mw/dataset/5e620784b8dfce002d803868

社区问答数据集
https://www.heywhale.com/mw/dataset/5de601f3ca27f8002c4cac47/content

京东迪奥口红的商品评论数据集
https://www.heywhale.com/mw/dataset/5f44d706835fe7002d9954c2/file

IMDB电影评论数据
https://www.heywhale.com/mw/dataset/5d143d41708b90002c5f7021

微博谣言以及其转发评论
https://www.heywhale.com/mw/dataset/5d2582c6688d36002c579791/content

中文姓名语料库
https://www.heywhale.com/mw/dataset/5cc7fd068c90d7002c8770c1

CNN/DailyMail新闻数据集
https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12

电影对白数据集(聊天机器人)
https://www.heywhale.com/mw/dataset/5bc2b3823631bc00109d123f

《中餐厅3》19W弹幕数据
https://www.heywhale.com/mw/dataset/5d7b69798499bc002c0d3ec5/file

中文对话情绪语料
https://www.heywhale.com/mw/dataset/5d00c390e727f8002c4599ad/content

网易新闻语料库
https://www.heywhale.com/mw/dataset/5caaea238408c1002b4b4bb2

百度知道问答数据集
https://www.heywhale.com/mw/dataset/5ed5bdcb946a0e002cb6cbf6

市场资讯新闻数据集
https://www.heywhale.com/mw/dataset/5e577a780e2b66002c2561a9

淘宝客服对话数据集
https://www.heywhale.com/mw/dataset/5e50cb410e2b66002c203007

辉瑞新冠🦠疫苗💉推文 数据集
https://www.heywhale.com/mw/dataset/5ff2cc27840381003b026201

Yelp(美国的大众点评)评论数据集
https://www.heywhale.com/mw/dataset/5d9ff4db037db3002d41749a/content

500万条微博语料
https://www.heywhale.com/mw/dataset/5db9207b080dc300371e4a12

Amazon食品评论数据
https://www.heywhale.com/mw/dataset/5df35bae2823a10036ab9ac6

维基百科中文语料库
https://www.heywhale.com/mw/dataset/5d1ee7939f53a9002ce5910e/file

鬼吹灯豆瓣短评数据集
https://www.heywhale.com/mw/dataset/5eb26afa366f4d002d761c9b/file

1946年-2003年人民日报 新闻语料库
https://www.heywhale.com/mw/dataset/605da1e8ce98c30015d46894

中文阅读理解数据集
https://www.heywhale.com/mw/dataset/5cac63a68408c1002b4be284

丁香园论坛疫情讨论数据
https://www.heywhale.com/mw/dataset/5e48225b17aec8002dc6119c

瑞金医院糖尿病数据集
https://www.heywhale.com/mw/dataset/5fd09ece1a34b90030b5343c

保险行业语料库
https://www.heywhale.com/mw/dataset/5cfdfaf5e727f8002c368bb7

搜狗全网新闻数据(SogouCA)
https://www.heywhale.com/mw/dataset/5e5f757fb8dfce002d7f5008/content

Reddit上WallStreetBets(WSB)社区帖子数据
https://www.heywhale.com/mw/dataset/601a58bfa93d4a00153a666b/content

8K条保险行业问答中文数据
https://www.heywhale.com/mw/dataset/5e620d2db8dfce002d803d6d

播客评论数据集
https://www.heywhale.com/mw/dataset/5ed9ef92b772f5002d6e2520/content

台达阅读理解资料集
https://www.heywhale.com/mw/dataset/5ddf2edeca27f8002c4aa48c

PubMedQA生物医学研究问题解答数据集
https://www.heywhale.com/mw/dataset/5f194f2394d484002d2d187f/file

安然(Enron)内部邮件数据集
https://www.heywhale.com/mw/dataset/5db9007d080dc300371e3f5c/content

字频数据
https://www.heywhale.com/mw/dataset/5cef9c0fc84534002bffc80a

纽约时报评论数据集
https://www.heywhale.com/mw/dataset/5cb9581f8c90d7002c805334/file

eICU电子病历官方Demo数据集
https://www.heywhale.com/mw/dataset/604887ec89c874001525dfd4/content

350篇互联网文章数据集
https://www.heywhale.com/mw/dataset/5ec7693d8a793f002dbd5020/content

中医药古籍文本数据集
https://www.heywhale.com/mw/dataset/5e50c28c0e2b66002c202692/content

中文突发事件语料库
https://www.heywhale.com/mw/dataset/5cef908fc84534002bff84a8/content

中文医疗对话数据集
https://www.heywhale.com/mw/dataset/5e4fbd4e0e2b66002c1fa34f/file

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云天徽上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值