NLP中常用评测数据集介绍

GLUE

通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿时下最流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是

  1. CoLA(The Corpus of Linguistic Acceptability):纽约大学发布的有关语法的数据集,该任务主要是对一个给定句子,判定其是否语法正确,因此CoLA属于单个句子的文本二分类任务;
  2. SST(The Stanford Sentiment Treebank),是斯坦福大学发布的一个情感分析数据集,主要针对电影评论来做情感分类,因此SST属于单个句子的文本分类任务(其中SST-2是二分类,SST-5是五分类,SST-5的情感极性区分的更细致);
  3. MRPC(Microsoft Research Paraphrase Corpus),由微软发布,判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务;
  4. STS-B(Semantic Textual Similarity Benchmark),主要是来自于历年SemEval中的一个任务(同时该数据集也包含在了SentEval),具体来说是用1到5的分数来表征两个句子的语义相似性,本质上是一个回归问题,但依然可以用分类的方法做,因此可以归类为句子对的文本五分类任务;
  5. QQP(Quora Question Pairs),是由Quora发布的两个句子是否语义一致的数据集,属于句子对的文本二分类任务;
  6. MNLI(Multi-Genre Natural Language Inference),同样由纽约大学发布,是一个文本蕴含的任务,在给定前提(Premise)下,需要判断假设(Hypothesis)是否成立,其中因为MNLI主打卖点是集合了许多不同领域风格的文本,因此又分为matched和mismatched两个版本的MNLI数据集,前者指训练集和测试集的数据来源一致,而后者指来源不一致。该任务属于句子对的文本三分类问题。
  7. QNLI(Question Natural Language Inference),其前身是SQuAD 1.0数据集,给定一个问句,需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务;
  8. RTE(Recognizing Textual Entailment),和MNLI类似,也是一个文本蕴含任务,不同的是MNLI是三分类,RTE只需要判断两个句子是否能够推断或对齐,属于句子对的文本二分类任务;
  9. WNLI(Winograd Natural Language Inference),也是一个文本蕴含任务,不过似乎GLUE上这个数据集还有些问题;

XNLI

NLI(Natural language inference, 自然语言推理) 是在给定一个“前提”(premise)的情况下,判断一个“假设”(hypothesis)是真(隐含)、假(矛盾)还是不确定(中性)的任务。
LABEL

  • true (entailment)
  • false (contradiction/contradictory)
  • undetermined (neutral)

Example of XNLI (zh)

premisehypolabel
从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理产品 和 地理 是 什么 使 奶油 抹 霜 工作neutral
是 啊 , 我 告诉 你 , 如果 你 去 买 一些 网球鞋 , 我 可以 看到 为什么 现在 你 知道 他们 是 起床 在 百 美元 范围网球鞋 有 一 系列 的 价格neutral
我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令entailment
你 怎么 知道 的 ? 所有 这些 都 是 他们 的 信息这些 信息 属于 他们entailment
男 女 同性恋异性恋者contradictory
在 rue des 法郎 的 结束 时 , 很多 人 认为 是 城市 最 英俊 的 住宅 广场孚日 广场 , 用 石头 和 红砖 墙 . 孚日 广场 完全 是 用 灰色 大理石 建造 的contradictory

COLA

CoLA(The Corpus of Linguistic Acceptability) 数据集由10657个句子组成,分别来自于23种语言学出版物,原作者对这些句子进行了专业的可接受性(语法)标注。这里提供的公共版本包含9594个句子,属于训练集和验证机,不包括测试集(1063个句子)。详细如下。

  • raw/in_domain_train.tsv (8551 lines)
  • raw/in_domain_dev.tsv (527 lines)
  • raw/out_of_domain_dev.tsv (516 lines)
  • tokenized/in_domain_train.tsv (8551 lines)
  • tokenized/in_domain_dev.tsv (527 lines)
  • tokenized/out_of_domain_dev.tsv (516 lines)

LABEL

  • 0 (unacceptable)
  • 1 (acceptable)

Example of CoLA
Each line in the .tsv files consists of 4 tab-separated columns.
Column 1: the code representing the source of the sentence.
Column 2: the acceptability judgment label (0=unacceptable, 1=acceptable).
Column 3: the acceptability judgment as originally notated by the author.
Column 4: the sentence.
在这里插入图片描述

SQuAD

斯坦福问答数据集(SQuAD)由人群工作者在一系列Wikipedia文章上提出的问题组成,其中每个问题的答案都是对应阅读段落的一段文字或跨度。

CoNLL-2003 NER

RACE

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

参考

各领域机器学习数据集汇总(附下载地址)
http://www.xuwei.io/2018/11/30/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB-glue%E6%95%B0%E6%8D%AE%E9%9B%86%E4%BB%8B%E7%BB%8D/

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值