GLUE榜单史上首破90大关!百度预训练模型ERNIE荣登榜首

百度的预训练模型ERNIE在GLUE排行榜上取得历史性的突破,平均得分首次超过90,超越国际顶级模型。GLUE是衡量NLP技术的重要标准,ERNIE此次登顶展示了其在自然语言处理领域的先进技术。ERNIE 2.0通过动态边界掩码算法和面向任务的预训练等创新,提升了语义理解能力。
摘要由CSDN通过智能技术生成

北京时间12月10日,预训练模型界的“MVP”百度ERNIE再展锋芒,在自然语言处理领域权威数据集GLUE中荣登榜首,并以9个任务平均得分首次突破90大关刷新该榜单历史,超越微软MT-DNN-SMART、谷歌T5、ALBERT等一众国际顶级预训练模型的表现,实力得到极大彰显。

 

本次GLUE榜单第一的含金量可谓十足。众所周知,通用语言理解评估基准GLUE是自然语言处理领域最权威的排行榜之一,由纽约大学、华盛顿大学、谷歌DeepMind等机构联合推出,以其涵盖大量不同类型的NLP任务,包括自然语言推断、语义相似度、问答匹配、情感分析等9大任务,成为衡量自然语言处理研究进展的行业标准,因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。

 

GLUE排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。此次能够超越国际顶尖公司及高校荣登榜首,背后是百度NLP技术的长期积累。

 

2018年底以来,以BERT为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。众AI公司纷纷发力预训练领域,相继发布了XLNet、RoBERTa、ALBERT、T5等预训练模型。百度也先后发布了ERNIE 1.0、ERNIE 2.0,在16个中英数据集上取得了当时的SOTA。

 

从GLUE排行榜上来看,BERT使用预训练加微调的方式,相对过往的基线成绩大幅提升各子任务的效果,首次突破了80大关。XLNet、RoBERTa、T5、MT-DNN-SMART等模型则分布在88-89分范围,人类水平则是87.1。

 

百度ERNIE此次登顶,成为首个突破90大关的模型,并在CoLA、SST-2、QQP、WNLI等数据集上达到SOTA。相对BERT的80.5的成绩,提升近10个点,取得了显著的效果突破。

百度ERNIE 2.0原理示意图

 

ERNIE 2.0 持续学习的语义理解框架, 支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。

 

此次登顶的模型主要基于ERNIE 2.0持续学习语义理解框架下的系列优化。研发团队通过ERNIE持续学习框架进一步优化了通用词汇级知识学习和面向任务类型的预训练,最终在通用语义表示能力上也取得了显著提升。

 

词汇级信息预训练上,团队提出了基于互信息的动态边界掩码算法 (Dynamic Boundary  Masking),改进了ERNIE 1.0中基于短语和实体等Knowledge Masking的掩码算法,这类算法需依赖短语和实体标注工具,从而导致Mask单元多样性差、语义片段覆盖度低等问题。

 

动态边界掩码算法首先通过假设检验从海量数据中筛选高置信度词对,并计算词对间的互信息。以词对的互信息及其统计量为基础,计算样本中词与词之间的紧密度。掩码时以该紧密度作为概率分布进行动态的边界采样。这种动态边界掩码的方式既兼顾了ERNIE 1.0对知识单元进行建模的能力,又提升了片段的多样性。

 

下图展示了不同掩码算法的差异,其中B(Begin)代表了一个片段的起始,I(Inside)代表当前位置应与上文最近出现的B位置组成片段。以图中句子为例,动态边界掩码算法以词对间的紧密度进行边界采样,动态的构造出了待掩码的片段候选。

Dynamic Boundary Masking Algorithm示意图

 

为了更好提升应用任务效果,模型在通用预训练的基础上,还新增了面向指定任务类型的预训练任务。模型首次将无监督指代消解作为预训练任务,指代消解的目标是识别篇章中的代词指向哪个名词短语的问题。模型基于无监督语料构造了指代消解任务,将句子中重复出现的某个名词短语随机替为句子中的其他名词短语,让模型去预测替换后的句子是否和原句相同。该任务会显著提升模型的指代关系预测能力。

 

指代消解预训练任务示意图

 

此外,模型在训练数据和结构上也做了调整。在预训练的数据使用上,模型针对论坛对话数据进一步精细化建模。对话数据相对篇章文本数据具有很强的结构性,相同回复对应的Query往往语义比较相似。模型充分利用了对话间语义关系,帮助ERNIE更好地建模语义相关性,在QQP等文本匹配任务上效果提升明显;在模型结构上,相对开源ERNIE 2.0 Large模型使用了更大的参数。

 

综合来看,ERNIE新模型沿着持续学习语义理解框架,进一步优化了现有的学习任务,并新增了面向任务类型的预训练,最后通过对训练数据、模型参数结构的精细调整,取得了显著的效果提升,在GLUE榜单成功突破90大关!

 

同时,百度ERNIE 2.0的论文已被国际人工智能顶级学术会议AAAI-2020收录,AAAI-2020将于2020年2月7日-12日在美国纽约举行,届时百度的技术团队将会进一步展示近期的技术成果。(论文链接:https://arxiv.org/abs/1907.12412)

 

相较于谷歌BERT,后来居上的百度ERNIE为AI领域展现了惊人的中国“AI速度”。如今,百度在自然语言处理领域的深厚积累已辐射至不同领域。ERNIE预训练技术已广泛地应用于公司内外多个产品和技术场景,在百度搜索、小度音箱、信息流推荐等一系列产品应用中发挥了重要作用,大幅提升了产品的技术效果和用户体验,逐步赋能各行各业。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值