Sebastian Ruder 发文：Benchmark 的挑战与机遇！

智源社区

于 2021-08-27 18:21:05 发布

阅读量462

点赞数

文章标签：大数据编程语言机器学习人工智能数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/119988645

版权

本文探讨了自然语言处理（NLP）领域中基准测试面临的挑战，包括模型在标准基准上超越人类表现后仍存在的问题。作者Sebastian Ruder指出，单一指标无法全面评估模型性能，需要考虑下游应用、细粒度评测和长尾效应。文章建议更新指标，关注模型的泛化能力和社会偏见，并提出动态和大规模的基准测试方法，以推动NLP研究的持续进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

过去数年，在迁移学习的推动下，NLP的模型变得越来越强大。性能快速提升的AI算法，使得现在面向AI性能的基准测试变得有些落后。例如，近来不断涌现的AI模型，在SuperGLUE、SQuAD等标准基准上基本都能够实现超越人类的表现。但是这就意味着我们已经接近解决自然语言处理的问题了吗？

显然，没有人会这么想；相反，近来所有的研究者都在重复一句话：我们离 NLP 的终极目标依然还很遥远。

这是因为什么呢？

随时间发展，模型在SQuAD2.0上的性能（图源：Papers with Code）

传统上，评测 NLP 模型性能的做法，通常是使用一个单一的指标，例如精度（accuracy）或BLEU。这种方法是一个静态的基准，依靠的是一个抽象的任务相关的公式。但这种方法，在当下各种模型强大但却流于表面的「语言理解」情况下，已经不再有效。

因此，我们需要重新思考如何设计 NLP 的基准，用来评测当下的这些模型的真实能力，从而指引NLP研究的发展。

本文将概述 NLP 基准测试方面存在的挑战和机遇，并提供一些一般性的建议。

作者：Sebastian Ruder，DeepMind 研究科学家

编译：贾伟，戴一鸣

内容目录：

什么是基准？
基准简史
指标很重要
考虑下游使用案例
细粒度评测
基准性能的长尾效应
大规模联系评测

原文：https://ruder.io/nlp-benchmarking

01

什么是基准？

数据集就是我们的望远镜 —— Aravind Joshi

基准（Benchmark），这个术语原本是指建筑中建筑师们做的水平标记；延伸义则是，用来比较事物的标准参考点。

在机器学习（ML）和自然语言处理（NLP）中，一个典型的基准通常包含几个基本的组成部分：一个/多个数据集（datasets），一个/多个相关指标（metrics），一种计算性能的方法。

设定基准的意义在于，针对领域内各种各样的系统，我们能够有一个共同的标准来评定其优良。当然，其前提是，领域内的人都愿意接受这个基准。

因此，为了确保让大家接受，近期的许多基准，要么选择一组具有代表性的标准任务，例如GLUE 或 XTREME；要么会通过征集的意见来构建，例如SuperGLUE、GEM 或 BIG-Bench等。

对于该领域的研究者来说，基准就是跟踪研究进展最重要的工具。Aravind Joshi 曾说过：「我们如果没有基准来评测模型的性能，这就像天文学家想看星星却不去造望远镜一样。」

对于开发者或非专业人士来说，基准能给他们提供一个相对客观的比较方法，让他们快速了解这个领域的进展，识别出有用的模型。例如《AI Index Report 2021》便采用SuperGLUE 和SQuAD作为标准来衡量 NLP 的进展。

通常人们会把在一个有影响力的基准测试中超越人类表现的模型，视为一个领域的关键研究里程碑。AlphaFold 2之所以轰动，正是因为在 CASP 14 的竞赛中取得了与实验室方法（人类表现）媲美的性能，这被认为是结构生物学领域中的重大科学进步。

02

基准简史

制定一个好的基准，其难度超

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。