Paper Reading: GLUE
1. 引言
最近看论文,突然脑子中蹦出了这么一个感觉,看论文是不应该先把论文看厚了,然后再把论文看薄了,这论文也就懂了O(∩_∩)O
这篇论文是在看BERT的时候,里面有一个GLUE score的评价指标,因为刚开始接触NLP,算是NLP的小白吧,所以还是有很多要理解和学习的知识。
进入正题,GLUE是什么?General Language Understanding Evaluation(GLUE) benchmark,用于评估各种现有不同的natural language understanding(NLU)的任务中模型的性能。
全文名称为:GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
2. 任务类型
那么具体由哪些类型呢?
数据集 | 全称 | 领域 | 简介 | 数据量 | 评价方法 |
---|---|---|---|---|---|
CoLA | The Corpus of Linguistic Acceptability | Single-sentence Classification | 判断一个句子是否语法正确,二分类任务 | train 8.5k, test 1k | Matthews correlation coefficient(MCC) |
SST-2 | The Stanford Sentiment Treebank | Single-sentence Classification | 判断一条电影评论积极或消极,二分类任务 | train 67k, test 1.8k | accuracy |
MRPC | Microsoft Research Paraphrase Corpus | Pairwise Text Classsification | 判断两个句子是否语义相同,二分类任务 | train 3.7k, test 1.7k | accuracy, F1 score |
QQP | Quora Question Pairs) | Pairwise Text Classsification | 判断两个句子是否语义相同,二分类任务 | train 364k,test 391k | accuracy, F1 score |
STS-B | Semantic Textual Similarity Benchmark | Text Similarity | 使用 1~5 的来表示两个句子的语义相似度(论文中表述),但是LZ实际下载数据是存在0-5之间的小数的,所以感觉上还是做回归比较合适 | train 7k, test 1.4k | Pearson/Spearman correction |
MNLI | Multi-Genre Natural Language Inference | Pairwise Text Classsification | 判断两个句子语义上的 entailment/contradiction/neutral,三分类任务 | train 393k, test 20k | matched acc./mismatched acc. |
QNLI | Question Natural Language Inference | Relevance Ranking | 前身是SQuAD1.0,给定问题,从给定的文段中挑选出包含答案的 Top 1 选项,二分类任务 | train 105k, test 5.4k | accuracy |
RTE | Recognizing Textual Entailment) | Pairwise Text Classsification | 判断两个句子是否能够推断/对齐,二分类任务 | train 2.5k, test 3k | accuracy |
WNLI | Winograd Natural Language Inference | Pairwise Text Classsification | 判断两个句子的语义相似性,二分类任务 | train 634, test 146 | accuracy |
这里LZ就做了个简单梳理,如果小伙伴想要详细了解的话,还是要自己阅读paper哈!