数据集名称 | 数据集简介(包含用途、用法、字段含义等) | 数据集文件名称或下载链接 | 类别(公共或自研) | 领域(非必填) |
Stanford Question Answering Dataset (SQuAD) | SQuAD 是斯坦福大学于2016年推出的数据集,阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。 | https://rajpurkar.github.io/SQuAD-explorer/ | 公共 | 自然语言处理(问答系统) |
facebook babi task | bAbI task是Facebook提出的关于文本推理的数据集,它们是一组综合语言任务,包含了20个任务,旨在测试各种推理能力,如演绎、归纳、共指、空间和时间推理等。 | https://github.com/facebook/bAbI-tasks | 公共 | 自然语言处理(问答系统) |
MS MARCO | 人工生成的机器阅读理解数据集,来自微软,2016 | http://www.msmarco.org/ | 公共 | 自然语言处理(问答系统) |
NewsQA | Maluuba 的机器理解数据集,2016 | https://github.com/Maluuba/newsqa | 公共 | 自然语言处理(问答系统) |
GraphQuestions | 一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016 | https://github.com/ysu1989/GraphQuestions | 公共 | 自然语言处理(问答系统) |
Story Cloze | 一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016 | http://cs.rochester.edu/nlp/rocstories/ | 公共 | 自然语言处理(问答系统) |
SimpleQuestions | 大量使用记忆网络的简单问答数据 | http://suo.im/2eiX0O | 公共 | 自然语言处理(问答系统) |
WikiQA | 一个开放问题与回答的挑战数据集,由微软推出,2015 | http://suo.im/3aJVyp | 公共 | 自然语言处理(问答系统) |
CNN-DailyMail | 用于训练机器进行阅读理解任务的数据集,2015 | http://cs.nyu.edu/~kcho/DMQA/ | 公共 | 自然语言处理(问答系统) |
Ubuntu Dialogue Corpus | 一个用于非结构化多回路对话系统研究的大型数据集,2015 | http://suo.im/2pbKCC | 公共 | 自然语言处理(对话系统) |
Frames | 用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016 | http://datasets.maluuba.com/Frames | 公共 | 自然语言处理(对话系统) |
NLP Large Scale Chinese Corpus for NLP | 数据集内容:1.维基百科(wiki2019zh),100万条完整的中文条目2。新闻语料库(news2016zh),250万条新闻,包括关键词,描述3。百科全书问答(Baike2018qa),150万问题和答案,问题类型4。社区问答JSON版(webtext2019zh),410万高质量社区问答,适合培训超大型号5。翻译语料库(translation2019zh),两百万对中英文语句。 | https://github.com/brightmart/nlp_chinese_corpus | 公共 | 自然语言处理 |
Ten Thousand German News Articles Dataset | 数据集作为第一个德国主题分类数据集,旨在解决这个问题的一部分。它由来自奥地利一家在线报纸的10273篇德语新闻文章组成,分为9个主题。这些文章是一百万篇文章的语料库中到目前为止尚未使用的部分。 | https://tblock.github.io/10kGNAD/ | 公共 | 自然语言处理 |
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases | 这个语料库为超过800万的中文单词和短语提供了200维矢量表示,即A.K.A.嵌入,这些单词和短语都经过了大规模高质量数据的预训练。这些矢量获得了汉语词汇和短语的语义意义,可以广泛应用于许多下游汉语处理任务(如命名实体识别和文本分类)以及进一步的研究中。 | https://ai.tencent.com/ailab/nlp/embedding.html | 公共 | 自然语言处理 |
CMU-MOSEI | CMU-Mosei是NLP多式情感分析和情感识别的野外数据集中最大的一个。它由来自1000多个YouTube身份和200个主题的23500句话组成。对句子进行注释,以表达情感和情感强度。数据集还包含未监督的数据(未标记的语句)。 | http://multicomp.cs.cmu.edu/resources/cmu-mosei-dataset/ | 公共 | 自然语言处理(情感分析) |
CORNELL NEWSROOM | 康奈尔新闻编辑室是一个大型的数据集,用于培训和评估总结系统。它包含了作者和编辑在38个主要出版物的编辑室写的130万篇文章和摘要。摘要是从1998年到2017年的搜索和社会元数据中获得的,使用了多种提取和抽象相结合的总结策略。 | https://summari.es/ | 公共 | 自然语言处理(摘要生成) |
WikiHow-Dataset | wikihow是一个使用在线wikihow(http://www.wikihow.com/)知识库的新的大规模数据集。每一篇文章由多个段落组成,每一段以一个句子开始,对其进行总结。通过合并段落以形成文章和段落大纲以形成摘要,数据集的最终版本包含超过200000个长序列对。 | https://github.com/mahnazkoupaee/WikiHow-Dataset | 公共 | 自然语言处理 |
MultiNLI | 多语种自然语言推理(multinli)语料库是一个由433K对句子组成的集合,这些句子对用文本蕴涵信息注释。语料库是基于snli语料库建模的,但不同的是,它涵盖了一系列口语和书面文本的体裁,并支持一种独特的跨体裁泛化评价。 | https://www.nyu.edu/projects/bowman/multinli/ | 公共 | 自然语言处理 |
MultiWOZ | multiwoz数据集是跨越多个域和主题的人类书面对话的完全标记集合。它至少比以前所有带注释的面向任务的语料库大一个数量级。这个对话是由一个游客和一个办事员在信息中进行的。它跨越了7个领域。 | https://www.repository.cam.ac.uk/handle/1810/280608 | 公共 | 自然语言处理 |
Spider 1.0 | spider是一个大规模的复杂的跨域语义解析和文本到SQL的数据集。spider包含10181个问题和5693个对200个数据库的独特复杂SQL查询,其中多个表涵盖138个不同的域。 | https://yale-lily.github.io/spider | 公共 | 自然语言处理 |
自然语言处理数据集收集
最新推荐文章于 2024-05-19 22:12:20 发布