Paper Reading: GLUE

Paper Reading: GLUE

1. 引言

最近看论文,突然脑子中蹦出了这么一个感觉,看论文是不应该先把论文看厚了,然后再把论文看薄了,这论文也就懂了O(∩_∩)O

这篇论文是在看BERT的时候,里面有一个GLUE score的评价指标,因为刚开始接触NLP,算是NLP的小白吧,所以还是有很多要理解和学习的知识。

进入正题,GLUE是什么?General Language Understanding Evaluation(GLUE) benchmark,用于评估各种现有不同的natural language understanding(NLU)的任务中模型的性能。
全文名称为:GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING

2. 任务类型

那么具体由哪些类型呢?

数据集全称领域简介数据量评价方法
CoLAThe Corpus of Linguistic AcceptabilitySingle-sentence Classification判断一个句子是否语法正确,二分类任务train 8.5k, test 1kMatthews correlation coefficient(MCC)
SST-2The Stanford Sentiment TreebankSingle-sentence Classification判断一条电影评论积极或消极,二分类任务train 67k, test 1.8kaccuracy
MRPCMicrosoft Research Paraphrase CorpusPairwise Text Classsification判断两个句子是否语义相同,二分类任务train 3.7k, test 1.7kaccuracy, F1 score
QQPQuora Question Pairs)Pairwise Text Classsification判断两个句子是否语义相同,二分类任务train 364k,test 391kaccuracy, F1 score
STS-BSemantic Textual Similarity BenchmarkText Similarity使用 1~5 的来表示两个句子的语义相似度(论文中表述),但是LZ实际下载数据是存在0-5之间的小数的,所以感觉上还是做回归比较合适train 7k, test 1.4kPearson/Spearman correction
MNLIMulti-Genre Natural Language InferencePairwise Text Classsification判断两个句子语义上的 entailment/contradiction/neutral,三分类任务train 393k, test 20kmatched acc./mismatched acc.
QNLIQuestion Natural Language InferenceRelevance Ranking前身是SQuAD1.0,给定问题,从给定的文段中挑选出包含答案的 Top 1 选项,二分类任务train 105k, test 5.4kaccuracy
RTERecognizing Textual Entailment)Pairwise Text Classsification判断两个句子是否能够推断/对齐,二分类任务train 2.5k, test 3kaccuracy
WNLIWinograd Natural Language InferencePairwise Text Classsification判断两个句子的语义相似性,二分类任务train 634, test 146accuracy

这里LZ就做了个简单梳理,如果小伙伴想要详细了解的话,还是要自己阅读paper哈!

3. 参考:

https://www.cnblogs.com/guozw/p/13369757.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值