Sebastian Ruder 发文:Benchmark 的挑战与机遇!

本文探讨了自然语言处理(NLP)领域中基准测试面临的挑战,包括模型在标准基准上超越人类表现后仍存在的问题。作者Sebastian Ruder指出,单一指标无法全面评估模型性能,需要考虑下游应用、细粒度评测和长尾效应。文章建议更新指标,关注模型的泛化能力和社会偏见,并提出动态和大规模的基准测试方法,以推动NLP研究的持续进步。
摘要由CSDN通过智能技术生成

过去数年,在迁移学习的推动下,NLP的模型变得越来越强大。性能快速提升的AI算法,使得现在面向AI性能的基准测试变得有些落后。例如,近来不断涌现的AI模型,在SuperGLUE、SQuAD等标准基准上基本都能够实现超越人类的表现。但是这就意味着我们已经接近解决自然语言处理的问题了吗?

显然,没有人会这么想;相反,近来所有的研究者都在重复一句话:我们离 NLP 的终极目标依然还很遥远。

这是因为什么呢?


随时间发展,模型在SQuAD2.0上的性能(图源:Papers with Code)

传统上,评测 NLP 模型性能的做法,通常是使用一个单一的指标,例如精度(accuracy)或BLEU。这种方法是一个静态的基准,依靠的是一个抽象的任务相关的公式。但这种方法,在当下各种模型强大但却流于表面的「语言理解」情况下,已经不再有效。

因此,我们需要重新思考如何设计 NLP 的基准,用来评测当下的这些模型的真实能力,从而指引NLP研究的发展。

本文将概述 NLP 基准测试方面存在的挑战和机遇,并提供一些一般性的建议。

作者:Sebastian Ruder,DeepMind 研究科学家

编译:贾伟,戴一鸣


内容目录:

  • 什么是基准?

  • 基准简史

  • 指标很重要

  • 考虑下游使用案例

  • 细粒度评测

  • 基准性能的长尾效应

  • 大规模联系评测


原文:https://ruder.io/nlp-benchmarking

01

什么是基准?

 

数据集就是我们的望远镜 —— Aravind Joshi

基准(Benchmark),这个术语原本是指建筑中建筑师们做的水平标记;延伸义则是,用来比较事物的标准参考点。

在机器学习(ML)和自然语言处理(NLP)中,一个典型的基准通常包含几个基本的组成部分:一个/多个数据集(datasets),一个/多个相关指标(metrics),一种计算性能的方法。

设定基准的意义在于,针对领域内各种各样的系统,我们能够有一个共同的标准来评定其优良。当然,其前提是,领域内的人都愿意接受这个基准。

因此,为了确保让大家接受,近期的许多基准,要么选择一组具有代表性的标准任务,例如GLUE 或 XTREME;要么会通过征集的意见来构建,例如SuperGLUE、GEM 或 BIG-Bench等。

对于该领域的研究者来说,基准就是跟踪研究进展最重要的工具。Aravind Joshi 曾说过:「我们如果没有基准来评测模型的性能,这就像天文学家想看星星却不去造望远镜一样。」

对于开发者或非专业人士来说,基准能给他们提供一个相对客观的比较方法,让他们快速了解这个领域的进展,识别出有用的模型。例如《AI Index Report 2021》便采用SuperGLUE 和SQuAD作为标准来衡量 NLP 的进展。

通常人们会把在一个有影响力的基准测试中超越人类表现的模型,视为一个领域的关键研究里程碑。AlphaFold 2之所以轰动,正是因为在 CASP 14 的竞赛中取得了与实验室方法(人类表现)媲美的性能,这被认为是结构生物学领域中的重大科学进步。

02

基准简史

 

制定一个好的基准,其难度超

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值