文本摘要主题的数据集见我之前写的另一篇博文:文本摘要数据集的整理、总结及介绍(持续更新ing…)
序列标注/信息抽取主题的数据集见我之前写的另一篇博文:序列标注/信息抽取任务(持续更新ing…)
智能司法主题的数据集见我写的另一篇博文:LegalAI公开数据集的整理、总结及介绍(持续更新ing…)
推理(包括数值和常识推理)的数据集见我写的另一篇博文:推理数据集(持续更新ing…)
(由于多种数据集之间存在耦合,所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的,而且分类之间的界限并不清晰)
其他NLP数据集见下:
文章目录
1. 语料库
1.1 中文
- CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
- FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
- Index of /zhwiki/latest/
- PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 - Chinese_WPLC - OpenI - 启智AI开源社区提供普惠算力!
- 诗歌和音韵:THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
- WuDaoCorpora Text文本预训练数据集
- esbatmop/MNBVC: MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
1.2 英文
- HappyDB | Kaggle:这个数据是集成了各种生活中快乐时光(比如
I was happy when my son got 90% marks in his examination
) - DreamBank
- Spambase - UCI Machine Learning Repository:垃圾邮件
- Enron Email Dataset:安然高管的邮件(安然已经没了,但邮件还在)
- SNAP: Web data: Amazon reviews
- https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm:博客
2. NLG / MRC
复述
代码生成
QA
1. 英文
2. 中文
- (繁中)DRCD
官方GitHub项目:DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset - Delta Reading Comprehension Dataset
MRC
翻译
其他集成性项目
3. 对话系统
3.1 open-domain
3.1.1 中文
- https://huggingface.co/datasets/fnlp/moss-002-sft-data
- https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
- https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
- thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
- 中文对话指令集:OpenLabel-Chinese Conversations Dataset (OL-CC)
4. 多模态
4.1 图文匹配
4.2 对话
5. 自然语言推理NLI / 自然语言理解NLU
集锦
英文
中文
6. 其他集成性项目 / benchmark
- opendatalab
- openxlab
6.1 中文
- CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
- 中文医疗信息处理评测基准CBLUE
- 千言(LUGE)| 全面的中文开源数据集合
- funNLP
- brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
- SophonPlus/ChineseNlpCorpus: 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
- smoothnlp/FinancialDatasets: SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only
- 情感分析资源大全(语料、词典、词嵌入、代码)_英文情感词典_qq280929090的博客-CSDN博客
- 请问哪里可以找到电力相关的文本数据集? - 知乎
- NLPCC
- C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件
6.2 中文多模态
6.3 英文
- SemEval
- BIG-bench
- Multi-task Language Understanding on MMLU
- Yelp Dataset:比较著名的就是评论数据了
- GLUE
- SuperGLUE
原论文:(2019 NeurIPS) SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems - Learning From Instructions
(TK的训练数据)
6.4 多语言
7. 文本分类
7.1 多语言
7.2 中文
7.3 格式化
- Multi-Domain Sentiment Dataset:https://www.cs.jhu.edu/~mdredze/datasets/sentiment/
格式:feature:<count> .... feature:<count> #label#:<label>