官网: https://gluebenchmark.com/leaderboard
自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集,但放眼望去,General Language Understanding Evaluation (GLUE) 又是其中最为突出和亮眼的。不仅是因为数据规范,体量庞大,更是因为它同时集合了多个子任务,全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标,可见其权威性和领导力。
数据集 | 全称 | 领域 | 简介 | 体量 |
---|---|---|---|---|
CoLA | The Corpus of Linguistic Acceptability | Single-sentence Classification | 判断一个句子是否语法正确,二分类任务 | 10,657 sentences |
SST-2 | The Stanford Sentiment Treebank | Single-sentence Classification | 判断一条电影评论积极或消极,二分类任务 | 11,855 sentences |
STS-B |