自然语言处理数据集收集

最新推荐文章于 2024-05-19 22:12:20 发布

日常敲代码间歇旅行的程序媛

最新推荐文章于 2024-05-19 22:12:20 发布

阅读量2.7k

点赞数 4

分类专栏： NLP 文章标签： nlp 数据集

本文链接：https://blog.csdn.net/weixin_41079550/article/details/93487522

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

数据集名称	数据集简介（包含用途、用法、字段含义等）	数据集文件名称或下载链接	类别（公共或自研）	领域（非必填）
Stanford Question Answering Dataset (SQuAD)	SQuAD 是斯坦福大学于2016年推出的数据集，阅读理解数据集，给定一篇文章，准备相应问题，需要算法给出问题的答案。此数据集所有文章选自维基百科，数据集的量为当今其他数据集(例如，WikiQA)的几十倍之多。一共有107,785问题，以及配套的 536 篇文章。	https://rajpurkar.github.io/SQuAD-explorer/	公共	自然语言处理(问答系统)
facebook babi task	bAbI task是Facebook提出的关于文本推理的数据集,它们是一组综合语言任务，包含了20个任务，旨在测试各种推理能力，如演绎、归纳、共指、空间和时间推理等。	https://github.com/facebook/bAbI-tasks	公共	自然语言处理(问答系统)
MS MARCO	人工生成的机器阅读理解数据集，来自微软，2016	http://www.msmarco.org/	公共	自然语言处理(问答系统)
NewsQA	Maluuba 的机器理解数据集，2016	https://github.com/Maluuba/newsqa	公共	自然语言处理(问答系统)
GraphQuestions	一个特征丰富的事实性问题回答数据集，来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》，2016	https://github.com/ysu1989/GraphQuestions	公共	自然语言处理(问答系统)
Story Cloze	一个常见故事的语料库和有关故事的总结性语句，来自美国罗切斯特大学，2016	http://cs.rochester.edu/nlp/rocstories/	公共	自然语言处理(问答系统)
SimpleQuestions	大量使用记忆网络的简单问答数据	http://suo.im/2eiX0O	公共	自然语言处理(问答系统)
WikiQA	一个开放问题与回答的挑战数据集，由微软推出，2015	http://suo.im/3aJVyp	公共	自然语言处理(问答系统)
CNN-DailyMail	用于训练机器进行阅读理解任务的数据集，2015	http://cs.nyu.edu/~kcho/DMQA/	公共	自然语言处理(问答系统)
Ubuntu Dialogue Corpus	一个用于非结构化多回路对话系统研究的大型数据集，2015	http://suo.im/2pbKCC	公共	自然语言处理（对话系统）
Frames	用于向面向目标的对话系统加入记忆的语料库，Maluuba，2016	http://datasets.maluuba.com/Frames	公共	自然语言处理（对话系统）
NLP Large Scale Chinese Corpus for NLP	数据集内容：1.维基百科（wiki2019zh），100万条完整的中文条目2。新闻语料库（news2016zh），250万条新闻，包括关键词，描述3。百科全书问答（Baike2018qa），150万问题和答案，问题类型4。社区问答JSON版（webtext2019zh），410万高质量社区问答，适合培训超大型号5。翻译语料库（translation2019zh），两百万对中英文语句。	https://github.com/brightmart/nlp_chinese_corpus	公共	自然语言处理
Ten Thousand German News Articles Dataset	数据集作为第一个德国主题分类数据集，旨在解决这个问题的一部分。它由来自奥地利一家在线报纸的10273篇德语新闻文章组成，分为9个主题。这些文章是一百万篇文章的语料库中到目前为止尚未使用的部分。	https://tblock.github.io/10kGNAD/	公共	自然语言处理
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases	这个语料库为超过800万的中文单词和短语提供了200维矢量表示，即A.K.A.嵌入，这些单词和短语都经过了大规模高质量数据的预训练。这些矢量获得了汉语词汇和短语的语义意义，可以广泛应用于许多下游汉语处理任务（如命名实体识别和文本分类）以及进一步的研究中。	https://ai.tencent.com/ailab/nlp/embedding.html	公共	自然语言处理
CMU-MOSEI	CMU-Mosei是NLP多式情感分析和情感识别的野外数据集中最大的一个。它由来自1000多个YouTube身份和200个主题的23500句话组成。对句子进行注释，以表达情感和情感强度。数据集还包含未监督的数据（未标记的语句）。	http://multicomp.cs.cmu.edu/resources/cmu-mosei-dataset/	公共	自然语言处理（情感分析）
CORNELL NEWSROOM	康奈尔新闻编辑室是一个大型的数据集，用于培训和评估总结系统。它包含了作者和编辑在38个主要出版物的编辑室写的130万篇文章和摘要。摘要是从1998年到2017年的搜索和社会元数据中获得的，使用了多种提取和抽象相结合的总结策略。	https://summari.es/	公共	自然语言处理（摘要生成）
WikiHow-Dataset	wikihow是一个使用在线wikihow（http://www.wikihow.com/）知识库的新的大规模数据集。每一篇文章由多个段落组成，每一段以一个句子开始，对其进行总结。通过合并段落以形成文章和段落大纲以形成摘要，数据集的最终版本包含超过200000个长序列对。	https://github.com/mahnazkoupaee/WikiHow-Dataset	公共	自然语言处理
MultiNLI	多语种自然语言推理（multinli）语料库是一个由433K对句子组成的集合，这些句子对用文本蕴涵信息注释。语料库是基于snli语料库建模的，但不同的是，它涵盖了一系列口语和书面文本的体裁，并支持一种独特的跨体裁泛化评价。	https://www.nyu.edu/projects/bowman/multinli/	公共	自然语言处理
MultiWOZ	multiwoz数据集是跨越多个域和主题的人类书面对话的完全标记集合。它至少比以前所有带注释的面向任务的语料库大一个数量级。这个对话是由一个游客和一个办事员在信息中进行的。它跨越了7个领域。	https://www.repository.cam.ac.uk/handle/1810/280608	公共	自然语言处理
Spider 1.0	spider是一个大规模的复杂的跨域语义解析和文本到SQL的数据集。spider包含10181个问题和5693个对200个数据库的独特复杂SQL查询，其中多个表涵盖138个不同的域。	https://yale-lily.github.io/spider	公共	自然语言处理

日常敲代码间歇旅行的程序媛

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
自然语言处理数据集收集

数据集名称数据集简介（包含用途、用法、字段含义等）数据集文件名称或下载链接类别（公共或自研）领域（非必填） Stanford Question Answering Dataset (SQuAD) SQuAD 是斯坦福大学于2016年推出的数据集，阅读理解数据集，给定一篇文章，准备相应问题，需要算法给出问题的答案。此数据集所有文章选自维基百科，数据集的量为当...
复制链接

扫一扫