自然语言处理数据集收集

数据集名称数据集简介(包含用途、用法、字段含义等)数据集文件名称或下载链接类别(公共或自研)领域(非必填)
Stanford Question Answering Dataset (SQuAD)SQuAD 是斯坦福大学于2016年推出的数据集,阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。https://rajpurkar.github.io/SQuAD-explorer/公共自然语言处理(问答系统)
facebook babi taskbAbI task是Facebook提出的关于文本推理的数据集,它们是一组综合语言任务,包含了20个任务,旨在测试各种推理能力,如演绎、归纳、共指、空间和时间推理等。https://github.com/facebook/bAbI-tasks公共自然语言处理(问答系统)
MS MARCO人工生成的机器阅读理解数据集,来自微软,2016http://www.msmarco.org/公共自然语言处理(问答系统)
NewsQAMaluuba 的机器理解数据集,2016https://github.com/Maluuba/newsqa公共自然语言处理(问答系统)
GraphQuestions一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016https://github.com/ysu1989/GraphQuestions公共自然语言处理(问答系统)
Story Cloze一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016http://cs.rochester.edu/nlp/rocstories/公共自然语言处理(问答系统)
SimpleQuestions大量使用记忆网络的简单问答数据http://suo.im/2eiX0O公共自然语言处理(问答系统)
WikiQA一个开放问题与回答的挑战数据集,由微软推出,2015http://suo.im/3aJVyp公共自然语言处理(问答系统)
CNN-DailyMail用于训练机器进行阅读理解任务的数据集,2015http://cs.nyu.edu/~kcho/DMQA/公共自然语言处理(问答系统)
Ubuntu Dialogue Corpus一个用于非结构化多回路对话系统研究的大型数据集,2015http://suo.im/2pbKCC公共自然语言处理(对话系统)
Frames用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016http://datasets.maluuba.com/Frames公共自然语言处理(对话系统)
NLP Large Scale Chinese Corpus for NLP数据集内容:1.维基百科(wiki2019zh),100万条完整的中文条目2。新闻语料库(news2016zh),250万条新闻,包括关键词,描述3。百科全书问答(Baike2018qa),150万问题和答案,问题类型4。社区问答JSON版(webtext2019zh),410万高质量社区问答,适合培训超大型号5。翻译语料库(translation2019zh),两百万对中英文语句。https://github.com/brightmart/nlp_chinese_corpus公共自然语言处理
Ten Thousand German News Articles Dataset数据集作为第一个德国主题分类数据集,旨在解决这个问题的一部分。它由来自奥地利一家在线报纸的10273篇德语新闻文章组成,分为9个主题。这些文章是一百万篇文章的语料库中到目前为止尚未使用的部分。https://tblock.github.io/10kGNAD/公共自然语言处理
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases这个语料库为超过800万的中文单词和短语提供了200维矢量表示,即A.K.A.嵌入,这些单词和短语都经过了大规模高质量数据的预训练。这些矢量获得了汉语词汇和短语的语义意义,可以广泛应用于许多下游汉语处理任务(如命名实体识别和文本分类)以及进一步的研究中。https://ai.tencent.com/ailab/nlp/embedding.html公共自然语言处理
CMU-MOSEICMU-Mosei是NLP多式情感分析和情感识别的野外数据集中最大的一个。它由来自1000多个YouTube身份和200个主题的23500句话组成。对句子进行注释,以表达情感和情感强度。数据集还包含未监督的数据(未标记的语句)。http://multicomp.cs.cmu.edu/resources/cmu-mosei-dataset/公共自然语言处理(情感分析)
CORNELL NEWSROOM康奈尔新闻编辑室是一个大型的数据集,用于培训和评估总结系统。它包含了作者和编辑在38个主要出版物的编辑室写的130万篇文章和摘要。摘要是从1998年到2017年的搜索和社会元数据中获得的,使用了多种提取和抽象相结合的总结策略。https://summari.es/公共自然语言处理(摘要生成)
WikiHow-Datasetwikihow是一个使用在线wikihow(http://www.wikihow.com/)知识库的新的大规模数据集。每一篇文章由多个段落组成,每一段以一个句子开始,对其进行总结。通过合并段落以形成文章和段落大纲以形成摘要,数据集的最终版本包含超过200000个长序列对。https://github.com/mahnazkoupaee/WikiHow-Dataset公共自然语言处理
MultiNLI多语种自然语言推理(multinli)语料库是一个由433K对句子组成的集合,这些句子对用文本蕴涵信息注释。语料库是基于snli语料库建模的,但不同的是,它涵盖了一系列口语和书面文本的体裁,并支持一种独特的跨体裁泛化评价。https://www.nyu.edu/projects/bowman/multinli/公共自然语言处理
MultiWOZmultiwoz数据集是跨越多个域和主题的人类书面对话的完全标记集合。它至少比以前所有带注释的面向任务的语料库大一个数量级。这个对话是由一个游客和一个办事员在信息中进行的。它跨越了7个领域。https://www.repository.cam.ac.uk/handle/1810/280608公共自然语言处理
Spider 1.0spider是一个大规模的复杂的跨域语义解析和文本到SQL的数据集。spider包含10181个问题和5693个对200个数据库的独特复杂SQL查询,其中多个表涵盖138个不同的域。https://yale-lily.github.io/spider公共自然语言处理
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值