自然语言处理数据集集锦(持续更新ing...)

诸神缄默不语-个人CSDN博文目录

文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理、总结及介绍(持续更新ing…)
序列标注/信息抽取主题的数据集见我之前写的另一篇博文:序列标注/信息抽取任务(持续更新ing…)
智能司法主题的数据集见我写的另一篇博文:LegalAI公开数据集的整理、总结及介绍(持续更新ing…)
推理(包括数值和常识推理)的数据集见我写的另一篇博文:推理数据集(持续更新ing…)
(由于多种数据集之间存在耦合,所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的,而且分类之间的界限并不清晰)

其他NLP数据集见下:

1. 语料库

1.1 中文

  1. CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
  2. FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
  3. Index of /zhwiki/latest/
  4. PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力!
  5. 诗歌和音韵:THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
  6. WuDaoCorpora Text文本预训练数据集
  7. esbatmop/MNBVC: MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

1.2 英文

  1. HappyDB | Kaggle:这个数据是集成了各种生活中快乐时光(比如I was happy when my son got 90% marks in his examination
  2. DreamBank
  3. Spambase - UCI Machine Learning Repository:垃圾邮件
  4. Enron Email Dataset:安然高管的邮件(安然已经没了,但邮件还在)
  5. SNAP: Web data: Amazon reviews
  6. https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm:博客

2. NLG / MRC

复述

  1. ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations
    1. Para-nmt-50m https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
    2. Para-nmt-5m-processed https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

代码生成

  1. HumanEval Dataset | Papers With Code

QA

  1. SQuAD
    1. SQuAD数据集简介_coder1479的博客-CSDN博客

1. 英文

  1. QQP First Quora Dataset Release: Question Pairs - Data @ Quora - Quora

2. 中文

  1. (繁中)DRCD
    官方GitHub项目:DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset - Delta Reading Comprehension Dataset

MRC

  1. 集成性项目
    1. sherlcok314159/ChineseMRC-Data: 收集了目前为止中文领域的MRC抽取式数据集

翻译

  1. 其他语言到英文:Translation Task - ACL 2016 First Conference on Machine Translation

其他集成性项目

  1. 中文文本生成数据集整理-NLG - 知乎

3. 对话系统

3.1 open-domain

3.1.1 中文

  1. https://huggingface.co/datasets/fnlp/moss-002-sft-data
  2. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
  3. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
  4. thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
  5. 中文对话指令集:OpenLabel-Chinese Conversations Dataset (OL-CC)

4. 多模态

4.1 图文匹配

  1. Flickr 30k From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

4.2 对话

  1. silverriver/MMChat: [LREC] MMChat: Multi-Modal Chat Dataset on Social Media

5. 自然语言推理NLI / 自然语言理解NLU

集锦

  1. 赛尔笔记 | 自然语言推理数据集简述 - 知乎

英文

  1. SNLI https://nlp.stanford.edu/projects/snli/

中文

6. 其他集成性项目 / benchmark

  1. opendatalab
  2. openxlab

6.1 中文

  1. CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
  2. 中文医疗信息处理评测基准CBLUE
  3. 千言(LUGE)| 全面的中文开源数据集合
  4. funNLP
  5. brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
  6. SophonPlus/ChineseNlpCorpus: 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
  7. smoothnlp/FinancialDatasets: SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only
  8. 情感分析资源大全(语料、词典、词嵌入、代码)_英文情感词典_qq280929090的博客-CSDN博客
  9. 请问哪里可以找到电力相关的文本数据集? - 知乎
  10. NLPCC
  11. C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件

6.2 中文多模态

  1. MUGE(Multimodal Understanding and Generation Evaluation)

6.3 英文

  1. SemEval
  2. BIG-bench
    1. 官方GitHub项目:google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
    2. 论文:Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
  3. Multi-task Language Understanding on MMLU
  4. Yelp Dataset:比较著名的就是评论数据了
  5. GLUE
    1. GLUE Benchmark
    2. GLUE部分基准数据集介绍:RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客
  6. SuperGLUE
    原论文:(2019 NeurIPS) SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
  7. Learning From Instructions
    (TK的训练数据)

6.4 多语言

  1. GlobalBench: A Benchmark for Global Progress in Natural Language Processing
  2. NLP 常用模型和数据集高速下载 | 故事尾音

7. 文本分类

7.1 多语言

  1. Taxi1500 Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

7.2 中文

  1. 集成性项目
    1. 关于文本分类(情感分析)的中文数据集汇总_文本分类数据集_樱与刀的博客-CSDN博客

7.3 格式化

  1. Multi-Domain Sentiment Dataset:https://www.cs.jhu.edu/~mdredze/datasets/sentiment/
    格式:feature:<count> .... feature:<count> #label#:<label>

7.4 英语

  1. 情感分析
    1. http://help.sentiment140.com/for-students/

8. 知识图谱

8.1 中文

  1. ownthink/KnowledgeGraphData: 史上最大规模1.4亿中文知识图谱开源下载
  2. 知識工場

8.2 集成性项目

  1. 开源知识图谱介绍 - JetHu - 博客园

9. 其他

用于数据清洗的停用词

  1. 脏话等词语(很多语言都有):https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words

还没整理完,先罗列在这里

  1. 收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等_中文qa数据集_OpenDataLab的博客-CSDN博客
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值