GLUE榜单

自然语言处理(NLP)主要自然语言理解(NLU)和自然语言生成(NLG)。GLUE(General Language Understanding Evaluation)九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。

榜单地址:GLUE Benchmark

CoLA:句子合乎语法与不合乎语法二分类,0表示不合乎语法,1表示合乎语法。

SST-2:情感分类,正面情感和负面情感二分类

MRPC:语义是否等效二分类

STS-B:句子含义相似性得分[0,5]

QQP:句子对是否等效二分类

MNLI:句子对前提和假设关系三分类:蕴含,矛盾,中立

QNLI:问题与句子是否蕴含二分类

RTE:句子对是否蕴含二分类

WNLI:句子对是否蕴含二分类

1、 CoLA数据集

CoLA(The Corpus of Linguistic Acceptability,语言可接受性语料库),单句子分类任务,语料来自语言理论的书籍和期刊。

样本个数:训练集8, 551个,开发集1, 043个,测试集1, 063个。

任务:句子合乎语法与不合乎语法二分类,0表示不合乎语法,1表示合乎语法

评估指标为: MCC(马修斯相关系数, 在正负样本分布十分不均衡的情况下使用的二分类评估指标)

 train.tsv与dev.tsv数据样式相同,共分为4列。 第一列数据, 如gj04, bc01等代表每条文本数据的来源即出版物代号; 第二列数据, 0或1, 代表每条文本数据的语法是否正确, 0代表不正确, 1代表正确; 第三列数据, '', 是作者最初的正负样本标记, 与第二列意义相同, ''表示不正确; 第四列即是被标注的语法使用是否正确的文本句子.

test.tsv中的数据内容共分为2列。第一列数据代表每条文本数据的索引; 第二列数据代表用于测试的句子.

2、 SST-2数据集

SST-2(The Stanford Sentiment Treebank,斯坦福情感树库),单句子分类任务,包含电影评论中的句子和它们情感的人类注释。

样本个数:训练集67, 350个,开发集873个,测试集1, 821个。

任务:情感分类,正面情感(标签为1)和负面情感(标签为0)

评估指标为: accuracy

train.tsv共分为2列, 第一列数据代表具有感情色彩的评论文本; 第二列数据, 0或1, 代表每条文本数据是积极或者消极的评论, 0代表消极, 1代表积极.

 

 test.tsv共分为2列, 第一列数据代表每条文本数据的索引; 第二列数据代表用于测试的句子.

 3、 MRPC数据集

MRPC(The Microsoft Research Paraphrase Corpus,微软研究院释义语料库)是从在线新闻源中自动抽取句子对语料库,并人工注释句子对中的句子是否在语义上等效。类别不平衡,68%正样本。

样本个数:训练集3, 668个,开发集408个,测试集1, 725个。

任务:意义是否等效二分类。

评价准则:准确率(accuracy)和F1值。

train.tsv分为5列, 第一列数据, 0或1, 代表每对句子是否具有相同的含义, 0代表含义不相同, 1代表含义相同. 第二列和第三列分别代表每对句子的id, 第四列和第五列是句子.

 test.tsv分为5列, 第一列数据代表每条文本数据的索引; 其余列的含义与train.tsv中相同.

 4、STS-B数据集

STSB(The Semantic Textual Similarity Benchmark,语义文本相似性基准测试)是从新闻标题、视频标题、图像标题以及自然语言推断数据中提取的句子对的集合,其相似性评分为0-5的浮点数。

样本个数:训练集5, 749个,开发集1, 379个,测试集1, 377个。

任务:回归任务,预测为1-5之间的相似性得分的浮点数。

评价准则:Pearson-Spearman Corr。

train.tsv中的数据内容共分为10列, 第一列数据是数据索引; 第二列代表每对句子的来源, 如main-captions表示来自字幕; 第三列代表来源的具体保存文件名, 第四列代表出现时间(年); 第五列代表原始数据的索引; 第六列和第七列分别代表句子对原始来源; 第八列和第九列代表相似程度不同的句子对; 第十列代表句子对的相似程度由低到高, 值域范围是[0, 5].

test.tsv中的数据内容共分为9列, 含义与train.tsv前9列相同.

5、QQP数据集

QQP(The Quora Question Pairs, Quora问题对数集)是社区问答网站Quora中问题对的集合。任务是确定一对问题在语义上是否等效。与MRPC一样,QQP也是正负样本不均衡的,不同是的QQP负样本占63%,正样本是37%。我们使用标准测试集,为此我们从作者那里获得了专用标签。我们观察到测试集与训练集分布不同。

样本个数:训练集363, 870个,开发集40, 431个,测试集390, 965个。

任务:判定句子对是否等效,等效、不等效两种情况,二分类任务。

评价准则:准确率(accuracy)和F1值。

train.tsv中的数据内容共分为6列, 第一列代表文本数据索引; 第二列和第三列数据分别代表问题1和问题2的id; 第四列和第五列代表需要进行’是否重复’判定的句子对; 第六列代表上述问题是/不是重复性问题的标签, 0代表不重复, 1代表重复.

test.tsv中的数据内容共分为3列, 第一列数据代表每条文本数据的索引; 第二列和第三列数据代表用于测试的问题句子对.

 6、MNLI数据集

MNLI(The Multi-Genre Natural Language Inference Corpus, 多类型自然语言推理数据库)是通过众包方式对句子对进行文本蕴含标注的集合。给定前提(premise)语句和假设(hypothesis)语句,任务是预测前提语句是否包含假设(蕴含, entailment),与假设矛盾(矛盾,contradiction)或者两者都不(中立,neutral)。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

任务:句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题。

评价准则:matched accuracy/mismatched accuracy。

train.tsv中的数据内容共分为12列, 第一列代表文本数据索引; 第二列和第三列数据分别代表句子对的不同类型id; 第四列代表句子对的来源; 第五列和第六列代表具有句法结构分析的句子对表示; 第七列和第八列代表具有句法结构和词性标注的句子对表示, 第九列和第十列代表原始的句子对, 第十一和第十二列代表不同标准的标注方法产生的标签, 在这里,他们始终相同, 一共有三种类型的标签, neutral代表两个句子既不矛盾也不蕴含, entailment代表两个句子具有蕴含关系, contradiction代表两个句子观点矛盾.

test_matched.tsv中的数据内容共分为10列, 与train.tsv的前10列含义相同.

 7、QNLI数据集

QNLI(Qusetion-answering NLI,问答自然语言推断)是从斯坦福问答数据集(SQuAD)转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

任务:判断问题和句子是否蕴含,蕴含和不蕴含,二分类。

评价准则:准确率(accuracy)。

train.tsv中的数据内容共分为4列, 第一列代表文本数据索引; 第二列和第三列数据代表需要进行’是否蕴含’判定的句子对; 第四列数据代表两个句子是否具有蕴含关系, 0/not_entailment代表不是蕴含关系, 1/entailment代表蕴含关系.

test.tsv中的数据内容共分为3列, 第一列数据代表每条文本数据的索引; 第二列和第三列数据代表需要进行’是否蕴含’判定的句子对.

 8、RTE数据集

RTE(The Recognizing Textual Entailment datasets,识别文本蕴含数据集),自然语言推断任务,它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

任务:判断句子对是否蕴含,句子1和句子2是否互为蕴含,二分类任务。

评价准则:准确率(accuracy)。

train.tsv和test.tsv样式与QNLI数据集基本相同。

 9、WNLI数据集

WNLI(Winograd NLI,Winograd自然语言推断),自然语言推断任务,数据集来自于竞赛数据的转换。训练集两个类别是均衡的,测试集是不均衡的,65%是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

任务:判断句子对是否相关,蕴含和不蕴含,二分类任务。

评价准则:准确率(accuracy)。

train.tsv和test.tsv样式与QNLI数据集基本相同。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值