NLP领域“学霸”太多,一年前标准已过时,新跑分标准SuperGLUE出炉

晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitA

DeepMind、纽约大学、华盛顿大学或许怎么也没有想到,去年4月才推出的NLP测试基准GLUE,这么快就要过时了。

从今年1月到现在,GLUE榜单的头名已经被微软、谷歌、Facebook刷新了3次。

这一系列新模型带来了巨大性能提升,并且都超过了GLUE测试中人类的平均水平,它们的测试分数也已经达到了上限,分差都不超过一分

640?wx_fmt=png

这说明GLUE给NLP研究者提供的进步空间已经十分有限了,现在急需一个新的标准拉开这些“学霸”的分差。

于是,原本参与制定GLUE的三家公司和学校联合Facebook提出了新的测试标准SuperGLUE。SuperGLUE使用谷歌的BERT作为性能测试基准。

640?wx_fmt=png

我们从最初的GLUE基准测试中吸取的经验教训,并推出了SuperGLUE,这是一个采用了GLUE的新基准测试,具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

这四家机构希望,通过SuperGLUE这项新标准,引入半监督和自我监督学习的新方法,对更大规模的数据进行训练,促进NLP领域的创新。

分数对比

在过去GLUE基准测试中,BERT模型与人类的分差不超过10%,最新的RoBERTa略微超过人类。

640?wx_fmt=png

Facebook在最新的SuperGLUE测试了RoBERTa,它与其中多项任务的人类基线之间仍然存在巨大差距,这说明了当前最先进的自然语言理解系统的一些局限性。

640?wx_fmt=jpeg

更新内容

Facebook在博客中说,他们选择了各种格式的任务,这些任务侧重于机器学习的许多核心领域的创新,包括样本迁移、多任务和自监督学习。

SuperGLUE总共包含10项任务,用于测试系统因果推理、识别因果关系、阅读短文后回答是非问题等等方面的能力。SuperGLUE还包含Winogender,一种性别偏见检测工具。

640?wx_fmt=png

这些问题用当前最先进的算法还不能很好地解决,却很容易被人类理解。

尤其是“选择合理的替代方案”(COPA)这一项因果推理任务。它要求系统能根据给出的句子,在两个选项中找出可能的原因或结果。比如:

那个男人的脚趾断了。这是什么原因造出的?

人类可以在COPA上获得了100%的准确率,而BERT只有74%,这表明了AI目前存在巨大的进步空间。

为了进一步挑战AI系统,SuperGLUE还首次引入了长篇问题回答数据集和基准测试,这需要AI能提供长而复杂的答案,这是此前没有遇到过的挑战,有助于发现了当今最先进的NLU系统的一些局限性。

640?wx_fmt=png

目前的问答系统专注于琐事类型(trivia-type)的问题,例如“水母是否有大脑”。新的任务将更进一步要求系统对开放式问题的深入解答进行详细的阐述,需要系统能够回答“水母如何在没有大脑的情况下运作?”

现有算法与人类的水平还相差很远,这一新挑战将推动AI合成来自不同来源的信息,并提供开放式问题的复杂回复。

除了新的测试基准外,纽约大学还同时发布了相关的PyTorch语言理解工具包Jiant

传送门

Facebook博客:

SuperGLUE地址:

PyTorch工具包:

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办,旨在围绕人工智能的产业需求研讨AI计算,促进AI技术创新、合作发展与人才培养。

门票原价1099元,量子位用户专享福利,识别下图即可限时免费报名。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值