过去数年,在迁移学习的推动下,NLP的模型变得越来越强大。性能快速提升的AI算法,使得现在面向AI性能的基准测试变得有些落后。例如,近来不断涌现的AI模型,在SuperGLUE、SQuAD等标准基准上基本都能够实现超越人类的表现。但是这就意味着我们已经接近解决自然语言处理的问题了吗?
显然,没有人会这么想;相反,近来所有的研究者都在重复一句话:我们离 NLP 的终极目标依然还很遥远。
这是因为什么呢?
随时间发展,模型在SQuAD2.0上的性能(图源:Papers with Code)
传统上,评测 NLP 模型性能的做法,通常是使用一个单一的指标,例如精度(accuracy)或BLEU。这种方法是一个静态的基准,依靠的是一个抽象的任务相关的公式。但这种方法,在当下各种模型强大但却流于表面的「语言理解」情况下,已经不再有效。
因此,我们需要重新思考如何设计 NLP 的基准,用来评测当下的这些模型的真实能力,从而指引NLP研究的发展。
本文将概述 NLP 基准测试方面存在的挑战和机遇,并提供一些一般性的建议。
作者:Sebastian Ruder,DeepMind 研究科学家
编译:贾伟,戴一鸣
内容目录:
什么是基准?
基准简史
指标很重要
考虑下游使用案例
细粒度评测
基准性能的长尾效应
大规模联系评测
原文:https://ruder.io/nlp-benchmarking
01
什么是基准?
数据集就是我们的望远镜 —— Aravind Joshi
基准(Benchmark),这个术语原本是指建筑中建筑师们做的水平标记;延伸义则是,用来比较事物的标准参考点。
在机器学习(ML)和自然语言处理(NLP)中,一个典型的基准通常包含几个基本的组成部分:一个/多个数据集(datasets),一个/多个相关指标(metrics),一种计算性能的方法。
设定基准的意义在于,针对领域内各种各样的系统,我们能够有一个共同的标准来评定其优良。当然,其前提是,领域内的人都愿意接受这个基准。
因此,为了确保让大家接受,近期的许多基准,要么选择一组具有代表性的标准任务,例如GLUE 或 XTREME;要么会通过征集的意见来构建,例如SuperGLUE、GEM 或 BIG-Bench等。
对于该领域的研究者来说,基准就是跟踪研究进展最重要的工具。Aravind Joshi 曾说过:「我们如果没有基准来评测模型的性能,这就像天文学家想看星星却不去造望远镜一样。」
对于开发者或非专业人士来说,基准能给他们提供一个相对客观的比较方法,让他们快速了解这个领域的进展,识别出有用的模型。例如《AI Index Report 2021》便采用SuperGLUE 和SQuAD作为标准来衡量 NLP 的进展。
通常人们会把在一个有影响力的基准测试中超越人类表现的模型,视为一个领域的关键研究里程碑。AlphaFold 2之所以轰动,正是因为在 CASP 14 的竞赛中取得了与实验室方法(人类表现)媲美的性能,这被认为是结构生物学领域中的重大科学进步。
02
基准简史
制定一个好的基准,其难度超