机器学习base line数据集笔记

最新推荐文章于 2023-02-21 18:30:55 发布

Sue_qx

最新推荐文章于 2023-02-21 18:30:55 发布

阅读量215

点赞数

分类专栏： nlp nlp任务数据集文章标签：大数据

本文链接：https://blog.csdn.net/Sue_qx/article/details/125449131

版权

nlp 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

nlp任务数据集

1 篇文章 0 订阅

订阅专栏

问答类数据集

SQuAD 1.0是有一个问题-段落对组成的问答数据集，其中段落来自维基百科，段落中的一个句子包含问题的答案。

SQuAD1.1 QA 数据集答案在原文

SQuAD2.0 QA 数据集答案不一定在原文

RACE任务来源于中学考试题目的大规模阅读理解数据集，包含了大约 28000 个文章以及近 100000 个问题。它的形式类似于英语考试中的阅读理解（选择题），给定一篇文章，通过阅读并理解文章（Passage），针对提出的问题（Question）从四个选项中选择正确的答案（Answers）。该题型的正确答案并不一定直接体现在文章中，只能从语义层面深入理解文章，通过分析文章中线索并基于上下文推理，选出正确答案

QNLI(Qusetion-answering NLI，问答自然语言推断) 从SQuAD 1.0转化而来，通过将问题和上下文（即维基百科段落）中的每一句话进行组合，并过滤掉词汇重叠比较低的句子对就得到了QNLI中的句子对。

句子对相似性数据集

QQP(The Quora Question Pairs, Quora问题对数集)，相似性和释义任务，是社区问答网站Quora中问题对的集合。任务是确定一对问题在语义上是否等效。

MRPC(The Microsoft Research Paraphrase Corpus，微软研究院释义语料库)，相似性和释义任务，是从在线新闻源中自动抽取句子对语料库，并人工注释句子对中的句子是否在语义上等效。类别并不平衡，其中68%的正样本，所以遵循常规的做法，报告准确率

STS 语义文本相似性基准（The Semantic Textual Similarity Benchmark）是从新闻头条和其他来源提取的句子对的集合。它们用1到5的分数来标注，表示这两个句子在语义上有多相似。

句子对立场关系数据集

MNLI任务句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题。

RTE 自然语言推断任务，它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来的，包含RTE1，RTE2，RTE3，RTE5等，这些数据样本都从新闻和维基百科构建而来。将这些所有数据转换为二分类，对于三分类的数据，为了保持一致性，将中立（neutral）和矛盾（contradiction）转换为不蕴含（not entailment）。