华为诺亚方舟开源预训练模型“哪吒”,4项任务均达到SOTA

出品 | AI科技大本营(ID:rgznai100)

BERT之后,新的预训练语言模型XLnet、RoBERTa、ERNIE不断推出,这次,华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NEZHA(哪吒),寓意模型能像哪吒那样三头六臂、大力出奇迹,可以处理很多不同的自然语言任务。

 

据介绍,当前版本的NEZHA基于BERT模型,并进行了多处优化,能够在一系列中文自然语言理解任务达到先进水平。

 

NEZHA模型的实验中采用了5个中文自然语言理解任务,即CMRC(中文阅读理解)、XNLI(自然语言推断)、LCQMC(句义匹配)、PD-NER (命名实体识别任务)、ChnSenti(情感分类)。

 

研究人员在中文维基百科、中文新闻、百度百科数据上训练NEZHA模型,并且和谷歌发布的中文BERT,以及哈工大和科大讯飞联合发布的BERT-WWM,还有百度发布的ERNIE-Baidu进行了比较。从下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任务上达到了先进水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分别代表由原始的BERT预训练任务训练得到的,加入全词Mask训练得到的以及加入Span预测任务训练得到的NEZHA模型(三者均使用了全函数式相对位置编码)。

GitHub链接:

https://github.com/huawei-noah/Pretrained-Language-Model/blob/master/README.md

论文链接:

https://arxiv.org/abs/1909.00204

 

此外,诺亚方舟实验室还开源了TinyBERT预训练语言模型。

 

尽管语言模型预训练(例如BERT)大大改善了许多自然语言处理任务的性能。但是,预训练语言模型通常在计算上昂贵且占用了大量内存,因此很难在某些资源受限的设备上有效执行它们。为了加快推理速度、减小模型大小并同时保持精度,华为研究人员提出了一种新颖的transformer蒸馏方法,该方法是针对基于transformer模型专门设计的知识蒸馏(KD)方法。

 

通过利用这种新的知识蒸馏方法,可以将BERT中编码的大量知识很好地转移到TinyBERT。此外,他们为TinyBERT引入了一个新的两阶段学习框架,该框架在预训练阶段和特定任务的学习阶段都执行transformer蒸馏方法。该框架确保TinyBERT可以捕获BERT的一般领域知识和特定任务知识。在GLUE基准测试中,TinyBERT相比BERT小7.5倍,比其推理的速度快9.4倍,并且在自然语言理解任务中具有竞争优势。

 

它在预训练和特定任务的学习阶段都运行了新型的transformer蒸馏方法。TinyBERT学习的概述如下所示:

 

论文链接:

https://arxiv.org/abs/1909.10351

 

NEZHA预训练语言模型的三大改进维度

 

据诺亚方舟实验室的官方资料,NEZHA(哪吒)基于BERT在模型、预训练任务和训练算法三个维度进行了改进。

 

             

模型改进:BERT的网络架构是一个多层的Transformer网络,由于Transformer并没有直接考虑输入的token的位置信息,原始的Transformer模型和BERT分别采用了函数式和参数式的绝对位置编码方式,即每一个位置上的输入的token会叠加一个与位置信息相关的一个embedding(这个embedding称为绝对位置编码:absolute position embedding,APE),前者的位置编码是一个与位置相关的函数,后者则是模型参数的一部分,在预训练过程中学到的。

此后,又有工作提出了相对位置编码方式,即在每一层计算隐状态的相互依赖的时候考虑他们之间的相对位置关系,这个相对位置信息表示为一个相对位置编码(relative position embedding,RPE),已有工作均在相对位置编码中加入了可学习的参数。本工作在BERT模型中使用了完全函数式的相对位置编码(相对位置编码没有任何需要学习的参数),实验结果表明该位置编码方式使得模型在各个下游任务上的效果均得到明显提升。

 

预训练任务:本工作引入了全词Mask技术,即不同于原始的BERT模型Mask单个中文字,该技术在MLM预训练任务中Mask整个词而不是单个字(如下图全词Mask方法Mask了一整个词“华为”),进而提升了任务难度使得BERT学到更多语义信息。

       

此外,借鉴SpanBERT ,NEZHA模型还引入了Span预测任务,该任务Mask一个连续的Span(例如下图中“机”,“很”,“不”三个字),利用Span前后的两个字的最上层表示(下图中的x3和x7)以及待预测字的位置信息来预测该字,如下图中,待预测字为“不”,Span预测任务会使用x3,x7和“不“”这个字的位置信息(就是x3和x6还有x6和x7之间的相对位置编码)来预测该字,“机”和“很”的预测也是同样的方法。

该方法使得Span前后的字的表示会包含Span中字的语义信息,由于在训练过程中,一个句子会被随机Mask很多次,所以句子中每个字都有机会成为Span的前后字,进而使得各个字学到的表示都会包含周围Span的信息,Span预测任务能够有效提高模型在下游的Span抽取任务(此任务的目标是获取一段文字中目标片段的开始和结束位置)的效果。

             

训练算法:在训练过程中,采用混合精度训练(Mixed Precision Training)方式,在传统的深度学习训练过程中,所有的变量包括weight,activation和gradient都是用FP32(单精度浮点数)来表示。而在混合精度训练过程中,每一个step会为模型的所有weight维护一个FP32的copy,称为Master  Weights,在做前向和后向传播过程中,Master Weights会转换成FP16(半精度浮点数)格式,权重,激活函数和梯度都是用FP16进行表示,最后梯度会转换成FP32格式去更新Master Weights。

优化器方面使用了LAMB优化器,通常在深度神经网络训练的Batch Size很大的情况下(超过一定阈值)会给模型的泛化能力带来负面影响,而LAMB优化器通过一个自适应式的方式为每个参数调整learning rate,能够在Batch Size很大的情况下不损失模型的效果,使得模型训练能够采用很大的Batch Size,进而极大提高训练速度。在训练BERT的研究中,使用LAMB优化器在不损失模型效果的前提下,Batch Size达到了超过30k,使得BERT的训练时间从3天降到了76分钟。

(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)

精彩公开课

推荐阅读

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。Quartz可以用来创建简单或为运行十个,百个,甚至是好几万个Jobs这样复杂的程序。Jobs可以做成标准的Java组件或 EJBs。 Quartz的优势: 1、Quartz是一个任务调度框架(库),它几乎可以集成到任何应用系统中。 2、Quartz是非常灵活的,它让您能够以最“自然”的方式来编写您的目的代码,实现您所期望的行为 3、Quartz是非常轻量级的,只需要非常少的配置 —— 它实际上可以被跳出框架来使用,如果你的需求是一些相对基本的简单的需求的话。 4、Quartz具有容错机制,并且可以在重启服务的时候持久化(”记忆”)你的定时任务,你的任务也不会丢失。 5、可以通过Quartz,封装成自己的分布式任务调度,实现强大的功能,成为自己的产品。6、有很多的互联网公司也都在使用Quartz。比如美团 Spring是一个很优秀的框架,它无缝的集成了Quartz,简单方便的让企业级应用更好的使用Quartz进行任务的调度。   课程说明:在我们的日常开发中,各种大型系统的开发少不了任务调度,简单的单机任务调度已经满足不了我们的系统需求,复杂的任务会让程序猿头疼, 所以急需一套专门的框架帮助我们去管理定时任务,并且可以在多台机器去执行我们的任务,还要可以管理我们的分布式定时任务。本课程从Quartz框架讲起,由浅到深,从使用到结构分析,再到源码分析,深入解析Quartz、Spring+Quartz,并且会讲解相关原理, 让大家充分的理解这个框架和框架的设计思想。由于互联网的复杂性,为了满足我们特定的需求,需要对Spring+Quartz进行二次开发,整个二次开发过程都会进行讲解。Spring被用在了越来越多的目中, Quartz也被公认为是比较好用的定时器设置工具,学完这个课程后,不仅仅可以熟练掌握分布式定时任务,还可以深入理解大型框架的设计思想。
[入门数据分析的第一堂课]这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍:Ø  什么是数据分析-知其然才知其所以然Ø  为什么要学数据分析-有目标才有动力Ø  数据分析的学习路线-有方向走得更快Ø  数据分析的模型-分析之道,快速形成分析思路Ø  应用案例及场景-分析之术,掌握分析方法[哪些同学适合学习这门课程]想要转行做数据分析师的,零基础亦可工作中需要数据分析技能的,例如运营、产品等对数据分析感兴趣,想要更多了解的[你的收获]n  会为你介绍数据分析的基本情况,为你展现数据分析的全貌。让你清楚知道自己该如何在数据分析地图上行走n  会为你介绍数据分析的分析方法和模型。这部分是讲数据分析的道,只有学会底层逻辑,能够在面对问题时有自己的想法,才能够下一步采取行动n  会为你介绍数据分析的数据处理和常用分析方法。这篇是讲数据分析的术,先有道,后而用术来实现你的想法,得出最终的结论。n  会为你介绍数据分析的应用。学到这里,你对数据分析已经有了初步的认识,并通过一些案例为你展现真实的应用。[专享增值服务]1:一对一答疑         关于课程问题可以通过微信直接询问老师,获得老师的一对一答疑2:转行问题解答         在转行的过程中的相关问题都可以询问老师,可获得一对一咨询机会3:打包资料分享         15本数据分析相关的电子书,一次获得终身学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值