自然语言处理数据集集锦（持续更新ing...）

诸神缄默不语

已于 2023-10-22 22:24:07 修改

阅读量1.6k

点赞数 1

分类专栏：人工智能学习笔记文章标签：自然语言处理人工智能 python 数据集 NLP

于 2023-04-25 20:18:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/130349309

版权

人工智能学习笔记专栏收录该内容

269 篇文章

订阅专栏

诸神缄默不语-个人CSDN博文目录

文本摘要主题的数据集见我之前写的另一篇博文：文本摘要数据集的整理、总结及介绍（持续更新ing…）
序列标注/信息抽取主题的数据集见我之前写的另一篇博文：序列标注/信息抽取任务（持续更新ing…）
智能司法主题的数据集见我写的另一篇博文：LegalAI公开数据集的整理、总结及介绍（持续更新ing…）
推理（包括数值和常识推理）的数据集见我写的另一篇博文：推理数据集（持续更新ing…）
（由于多种数据集之间存在耦合，所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的，而且分类之间的界限并不清晰）

其他NLP数据集见下：

1. 语料库

1.1 中文

1.2 英文

HappyDB | Kaggle：这个数据是集成了各种生活中快乐时光（比如I was happy when my son got 90% marks in his examination）
DreamBank
Spambase - UCI Machine Learning Repository：垃圾邮件
Enron Email Dataset：安然高管的邮件（安然已经没了，但邮件还在）
SNAP: Web data: Amazon reviews
https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm：博客

2. NLG / MRC

复述

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations
1. Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
2. Para-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

代码生成

HumanEval Dataset | Papers With Code

QA

SQuAD
1. SQuAD数据集简介_coder1479的博客-CSDN博客

1. 英文

QQP First Quora Dataset Release: Question Pairs - Data @ Quora - Quora

2. 中文

（繁中）DRCD
官方GitHub项目：DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset - Delta Reading Comprehension Dataset

MRC

集成性项目
1. sherlcok314159/ChineseMRC-Data: 收集了目前为止中文领域的MRC抽取式数据集

翻译

其他语言到英文：Translation Task - ACL 2016 First Conference on Machine Translation

其他集成性项目

中文文本生成数据集整理-NLG - 知乎

3. 对话系统

3.1 open-domain

3.1.1 中文

4. 多模态

4.1 图文匹配

Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

4.2 对话

silverriver/MMChat: [LREC] MMChat: Multi-Modal Chat Dataset on Social Media

5. 自然语言推理NLI / 自然语言理解NLU

集锦

赛尔笔记 | 自然语言推理数据集简述 - 知乎

英文

SNLI https://nlp.stanford.edu/projects/snli/

中文

6. 其他集成性项目 / benchmark

opendatalab
openxlab

6.1 中文

6.2 中文多模态

MUGE(Multimodal Understanding and Generation Evaluation)

6.3 英文

SemEval
BIG-bench
1. 官方GitHub项目：google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
2. 论文：Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
Multi-task Language Understanding on MMLU
Yelp Dataset：比较著名的就是评论数据了
GLUE
1. GLUE Benchmark
2. GLUE部分基准数据集介绍：RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客
SuperGLUE
原论文：(2019 NeurIPS) SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
Learning From Instructions
（TK的训练数据）

6.4 多语言

7. 文本分类

7.1 多语言

Taxi1500 Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

7.2 中文

集成性项目
1. 关于文本分类（情感分析）的中文数据集汇总_文本分类数据集_樱与刀的博客-CSDN博客

7.3 格式化

Multi-Domain Sentiment Dataset：https://www.cs.jhu.edu/~mdredze/datasets/sentiment/
格式：feature:<count> .... feature:<count> #label#:<label>

7.4 英语

情感分析
1. http://help.sentiment140.com/for-students/

8. 知识图谱

8.1 中文

8.2 集成性项目

开源知识图谱介绍 - JetHu - 博客园

9. 其他

用于数据清洗的停用词

脏话等词语（很多语言都有）：https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words

还没整理完，先罗列在这里

收藏丨20个中文语料数据集，含数学考试、公务员考题、医患对话等_中文qa数据集_OpenDataLab的博客-CSDN博客

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诸神缄默不语 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。