[论文速览] Unified Language Model Pre-training for Natural Language Understanding and Generation

Unified Language Model Pre-training for Natural Language Understanding and Generation 面向自然语言理解与生成的统一语言模型预训练,NeurIPS 2019
摘要

本文提出了一种新的统一的预训练语言模型(UNILM),它可以针对自然语言理解和生成任务进行微调。采用双向序列建模,训练了三种类型的预测模型:单向预测和序列建模。统一的建模是通过使用共享的变压器网络和使用特定的自我注意掩码来控制预测条件的上下文来实现的UNILM在GLUE基准测试、squad2.0和CoQA问答任务上都比BERT好。此外,UNILM在5个自然语言生成数据集上取得了最新的成果,包括CNN/DailyMail抽象摘要ROUGE-L提高到40.51(绝对值提高2.04),Gigaword抽象摘要ROUGE-L提高到35.75(绝对值提高0.86),CoQA生成性问题回答F1分数提高到82.5(37.1绝对值改善),小队问题生成BLEU-4至22.12(3.75绝对值改善),DSTC7文件将对话响应生成NIST-4接至2.67(人类表现为2.65)。代码和预先培训的模型可获得于 https://github.com/microsoft/unilm。

Introduction

语言模型(LM)的预训练极大地提高了各种自然语言处理任务的技术水平。预先训练的LMs通过使用大量的文本数据根据上下文预测单词来学习上下文化的文本表示,并且可以对其进行微调以适应后续任务。
对于不同类型的训练前LMs,采用了不同的预测任务和训练目标,如表1所示。ELMo学习了两个单向LMs:前向LM从左到右读取文本,而向后LM从右到左对文本进行编码。GPT使用从左到右的转换器[43]逐字预测文本序列。相比之下,BERT使用了一个双向转换器编码器来融合左右上下文来预测被屏蔽的单词。尽管BERT显著提高了许多自然语言理解任务的性能,但其双向性使得其很难应用于自然语言生成任务。

在这项工作中,我们提出了一个新的统一的预训练语言模型(UNILM),它可以应用于自然语言理解(NLU)和自然语言生成(NLG)任务。UNILM是一个多层变压器网络,联合对大量文本进行预训练,针对三种类型的无监督语言建模目标进行了优化,如表2所示。特别地,我们设计了一组完形填空任务,其中一个被蒙蔽的单词根据其上下文进行预测。完形填空在上下文中的定义是如何不同的。对于一个从左到右的单向LM,要预测的屏蔽词的上下文由其左侧的所有单词组成。对于从右到左的单向LM,上下文由右侧的所有单词组成。对于双向LM,上下文由左右两侧的单词组成。对于序列到序列LM,第二个(目标)序列中待预测单词的上下文由第一个(源)序列中的所有单词和目标序列中其左侧的单词组成。
与BERT类似,可以对预先训练的UNILM进行微调(如果需要,还可以使用额外的任务特定层)以适应各种下游任务。但是与主要用于NLU任务的BERT不同,UNILM可以配置成使用不同的自我注意掩码(第2节)来聚合不同类型语言模型的上下文,因此可以同时用于NLU和NLG任务。
UNILM有三个主要优点。首先,统一的预训练过程导致单个变压器LM使用不同类型LMs的共享参数和架构,从而减少了单独训练和托管多个LMs的需要。其次,参数共享使得学习的文本表示更通用,因为它们针对不同的语言建模目标进行了联合优化,其中上下文以不同的方式使用,从而减轻了对任何单个LM任务的过度适应。第三,除了应用于NLU任务外,UNILM作为一个序列对序列LM(第2.3节)的使用,使得它成为NLG的自然选择,例如抽象摘要和问题生成。
实验结果表明,该模型作为双向编码器,在GLUE基准测试和两个抽取式问答任务(squad2.0和CoQA)上都优于BERT。此外,我们在五个NLG数据集上证明了UNILM的有效性,并将其作为一个序列到序列模型,在CNN/DailyMail和Gigaword抽象摘要、小组问题生成、CoQA生成问答和DSTC7对话响应生成上创造了最新的结果。

2 Unified Language Model Pre-training

给定一个输入序列 x = x 1 ⋅ ⋅ ⋅ x ∣ x ∣ x=x_1···x _{| x |} x=x1xx,UNILM获得每个令牌的上下文化向量表示。如图1所示,预训练针对几个无监督的语言建模目标(即单向LM、双向LM和序列对序列LM)优化共享变压器网络。为了控制对要预测的词标记上下文的访问,我们使用不同的掩码来进行自我注意。换句话说,我们使用掩蔽来控制令牌在计算其上下文化表示时应该关注多少上下文。一旦对UNILM进行了预训练,我们就可以针对下游任务使用特定于任务的数据对其进行微调。

在这里插入图片描述
图1:统一LM预培训概述。模型参数在LM目标之间共享(即双向LM、单向LM和序列间LM)。我们使用不同的自我注意掩码来控制每个单词标记对上下文的访问。从右到左的LM与从左到右的LM类似,为了简洁起见,图中省略了这一点。

2.1 Input Representation

输入x是字序列,它可以是单向LMs的文本段,也可以是用于双向LMs和序列到序列LM的一对片段。我们总是在输入的开始处添加一个特殊的序列开始([SOS])令牌,在每个段的末尾添加一个特殊的序列结束([EOS])令牌。[EOS]不仅可以在NLU任务中标记句子边界,而且可以用来学习在NLG任务中何时终止解码过程。输入表示法遵循BERT。文本通过WordPiece标记成子词单位。
对于每个输入令牌,其向量表示通过相应的令牌嵌入、位置嵌入和段嵌入求和来计算。由于UNILM是使用多个LM任务来训练的,所以 segment embeddings也扮演LM标识符的角色,因为我们为不同的LM目标使用不同的段嵌入。

2.2 Backbone Network: Multi-Layer Transformer

输入向量 { x i } i = 1 ∣ x ∣ \left\{\mathbf{x}_{i}\right\}_{i=1}^{|x|} {xi}i=1x首先被打包成 H 0 = [ x 1 , ⋯   , x ∣ x ∣ ] \mathbf{H}^{0}=\left[\mathbf{x}_{1}, \cdots, \mathbf{x}_{|x|}\right] H0=[x1,,xx],然后用L层变压器 H l = Transformer ⁡ l ( H l − 1 ) , l ∈ [ 1 , L ] \mathbf{H}^{l}=\operatorname{Transformer}_{l}\left(\mathbf{H}^{l-1}\right), l \in[1, L] Hl=Transformerl(Hl1),l[1,L]将其编码到抽象层次 H l = [ h 1 l , ⋯   , h ∣ x ∣ l ] \mathbf{H}^{l}=\left[\mathbf{h}_{1}^{l}, \cdots, \mathbf{h}_{|x|}^{l}\right] Hl=[h1l,,hxl]的不同层次上。在每个变压器块中,使用多个自我注意磁头来聚集前一层的输出向量。对于第 l l l个变压器层,自关注头 A l A_l Al的输出通过以下方式计算:
Q = H l − 1 W l Q , K = H l − 1 W l K , V = H l − 1 W l V M i j = { 0 ,  allow to attend  − ∞ ,  prevent from attending  A l = softmax ⁡ ( Q K ⊤ d k + M ) V l \begin{aligned} \mathbf{Q} &=\mathbf{H}^{l-1} \mathbf{W}_{l}^{Q}, \quad \mathbf{K}=\mathbf{H}^{l-1} \mathbf{W}_{l}^{K}, \quad \mathbf{V}=\mathbf{H}^{l-1} \mathbf{W}_{l}^{V} \\ \mathbf{M}_{i j} &=\left\{\begin{array}{ll} 0, & \text { allow to attend } \\ -\infty, & \text { prevent from attending } \end{array}\right.\\ \mathbf{A}_{l} &=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\top}}{\sqrt{d_{k}}}+\mathbf{M}\right) \mathbf{V}_{l} \end{aligned} QMijAl=Hl1WlQ,K=Hl1WlK,V=Hl1WlV={0,, allow to attend  prevent from attending =softmax(dk QK+M)Vl
where the previous layer’s output H l − 1 ∈ R ∣ x ∣ × d h \mathbf{H}^{l-1} \in \mathbb{R}^{|x| \times d_{h}} Hl1Rx×dh is linearly projected to a triple of queries, keys and values using parameter matrices W l Q , W l K , W l V ∈ R d h × d k , \mathbf{W}_{l}^{Q}, \mathbf{W}_{l}^{K}, \mathbf{W}_{l}^{V} \in \mathbb{R}^{d_{h} \times d_{k}}, WlQ,WlK,WlVRdh×dk, respectively, and the mask matrix M ∈ R ∣ x ∣ × ∣ x ∣ \mathbf{M} \in \mathbb{R}^{|x| \times|x|} MRx×x determines whether a pair of tokens can be attended to each other.

我们使用不同的掩码矩阵M来控制令牌在计算其上下文化表示时可以处理的上下文,如图1所示。以双向LM为例。掩码矩阵的元素都是0,表示所有令牌都可以互相访问。

2.3 Pre-training Objectives

我们使用为不同语言建模目标设计的四个完形填空任务对UNILM进行预训练。在完形填空任务中,我们在输入中随机选择一些字块标记,并用特殊标记[MASK]替换它们。然后,我们将变压器网络计算出的相应输出向量输入到一个softmax分类器中,以预测被掩蔽的令牌。学习UNILM的参数,以最小化使用预测令牌和原始令牌计算的交叉熵损失。值得注意的是,完形填空任务的使用使得对所有LMs都可以使用相同的训练过程,无论是单向的还是双向的。

Unidirectional LM 我们使用从左到右和从右到左的LM目标。以从左到右LM为例。每个标记的表示只对向左的上下文标记和自身进行编码。例如,要预测 “ x 1 x 2 [ M A S K ] x 4 ” “x_1x_2[MASK]x_4” x1x2[MASK]x4的掩码标记,只能使用标记 x 1 、 x 2 x_1、x_2 x1x2和它本身。这是通过使用一个三角形矩阵来实现的,其中自我注意遮罩的上三角部分设置为 − ∞ −∞ ,其他元素设置为0,如图1所示。类似地,从右到左的LM预测了一个以其未来(右)上下文为条件的令牌。

Bidirectional LM双向LM允许所有令牌在预测中相互关注。它从两个方向对上下文信息进行编码,并能产生比单向文本更好的上下文表示。自我注意掩码M是一个零矩阵,因此允许每个令牌跨输入序列中的所有位置参与。

Sequence-to-Sequence LM

如图1所示,为了进行预测,第一个(源)段中的令牌可以从段内的两个方向相互关注,而第二个(目标)段的令牌只能关注目标段中的向左上下文和自身,以及源段中的所有令牌。例如,给定源段 t 1 t 2 t_1t_2 t1t2及其目标段 t 3 t 4 t 5 t_3t_4t_5 t3t4t5,我们将输入 “ [ S O S ] t 1 t 2 [ E O S ] t 3 t 4 t 5 [ E O S ] ” “[SOS]t_1 t_2[EOS]t_3t_4 t_5[EOS]” [SOS]t1t2[EOS]t3t4t5[EOS]输入到模型中。虽然 t 1 和 t 2 t_1和t_2 t1t2都可以访问前四个令牌,包括[SOS]和[EOS],但 t 4 t_4 t4只能处理前六个令牌
图1显示了用于序列对序列LM目标的自我注意掩码M。M的左边部分设置为0,以便所有令牌都能处理第一个段。右上部分设置为 − ∞ −∞ ,以阻止从源段到目标段的注意。此外,对于右下部分,我们将其上三角部分设置为 − ∞ −∞ ,将其他元素设置为0,这将阻止目标段中的令牌参与其未来(右)位置。
在训练过程中,我们在两个片段中随机选择token,并用特殊的token[MASK]代替它们。该模型学习如何恢复masked tokens.。由于源文本和目标文本在训练中被包装成一个连续的输入文本序列,我们隐含地鼓励模型学习这两个片段之间的关系。为了更好地预测目标段中的token,UNILM学习有效地编码源段。因此,为序列到序列LM设计的完形任务(也称为编解码器模型)同时预训练双向编码器和单向解码器。这种预先训练的模型,作为一个编码器-编码器模型,可以很容易地适应各种条件文本生成任务,例如抽象摘要。

Next Sentence Prediction
对于双向LM,我们还包括下一个句子预测任务进行预训练

2.4 Pre-training Setup

总体培训目标是上述不同类型的LM目标的总和。具体来说,在一个训练批内,使用双向LM目标时间的1/3,使用序列对LM目标的时间的1/3,从左到右和从右到左的LM目标都以1/6的速率采样。为了进行公平的比较,UNILM的模型架构遵循 B E R T L A R G E BERT_{LARGE} BERTLARGE的架构。gelu用作GPT。具体地说,我们使用了一个24层的变压器,它有1024个隐藏尺寸,16个注意头,其中包含大约340M的参数。softmax分类器的权值矩阵与令牌嵌入相结合。UNILM由 B E R T L A R G E BERT_{LARGE} BERTLARGE初始化,然后使用英语Wikipedia和BookCorpus进行预训练。词汇量是28996。输入序列的最大长度为512。令牌掩蔽概率为15%。在掩蔽的位置中,80%的时间我们用[MASK]替换令牌,10%的时间用随机令牌替换,剩下的时间则保留原始令牌。另外,80%的时候我们每次随机屏蔽一个令牌,20%的时间我们屏蔽一个bigram或者trigram。
Adam with β 1 = 0.9 , β 2 = 0.999 \beta_{1}=0.9, \beta_{2}=0.999 β1=0.9,β2=0.999 is used for optimization. The learning rate is 3 e − 5 , 3 e-5, 3e5, with linear warmup over the first 40,000 steps and linear decay. The dropout rate is 0.1. 0.1 . 0.1. The weight decay is 0.01. 0.01 . 0.01. The batch size is 330. 330 . 330. The pre-training procedure runs for about 770,000 steps. It takes about 7 hours for 10,000 steps using 8 Nvidia Telsa V 100 \mathrm{V}100 V100 32 G B \mathrm{GB} GB GPU cards with mixed precision training.

2.5 Fine-tuning on Downstream NLU and NLG Tasks

对于NLU任务,我们微调UNILM作为双向转换器编码器,如BERT。以文本分类为例。我们使用[SOS]的编码向量作为输入的表示,表示为 h 1 l h^l_1 h1l,并将其输入到一个随机初始化的softmax分类器(即任务特定的输出层),其中类概率计算为softmax( h 1 l W C h^l_1W^C h1lWC),其中 W C ∈ R d h × C \mathbf{W}^{C} \in \mathbb{R}^{d_{h} \times C} WCRdh×C是参数矩阵,C是类别数。我们通过更新预先训练的LM和添加的softmax分类器的参数来最大化标记训练数据的可能性。
对于NLG任务,我们以序列到序列任务为例。微调程序类似于使用第2.3节中的自我注意MASK进行的预培训。让S1和S2分别表示源序列和目标序列。我们用特殊的令牌将它们打包在一起,形成输入“[SOS]S1[EOS]S2[EOS]”。通过随机掩蔽目标序列中一定百分比的标记,并学习如何恢复被屏蔽的单词,对模型进行了微调。训练的目标是在给定的上下文中最大限度地增加伪装标记的可能性。值得注意的是,标记目标序列结束的[EOS]也可以在微调过程中被遮住,因此当发生这种情况时,模型将学习何时发射[EOS]以终止目标序列的生成过程。

Experiments

我们在NLU(即GLUE基准测试和抽取式问答)和NLG任务(即抽象摘要、问题生成、生成性问答和对话响应生成)上进行了实验。

3.1 Abstractive Summarization

自动文本摘要生成简洁流畅的摘要,在输入中传达关键信息(例如,新闻文章)。我们关注抽象摘要,这是一个生成任务,其中摘要不局限于重复使用输入文本中的短语或句子。我们使用CNN/DailyMail数据集和Gigaword的非匿名版本进行模型微调和评估。我们按照第2.5节描述的过程,通过连接文档(第一段)和摘要(第二段)作为输入(根据预定义的最大长度截断),我们将UNILM作为序列到序列模型进行微调。
我们在30个时期的训练集上对我们的模型进行了微调。我们重用了训练前的大部分超参数。掩蔽概率为0.7。我们还使用标签平滑[40],速率为0.1。对于CNN/DailyMail,我们将批大小设置为32,最大长度设置为768。对于Gigaword,我们将批处理大小设置为64,最大长度设置为256。在解码过程中,我们使用波束搜索,波束大小为5。
对于CNN/DailyMail和Gigaword,输入文档分别被截断到前640和192个令牌。我们删除了beam search中重复的三元组,并调整了开发集的最大摘要长度。

我们使用F1版本的ROUGE作为两个数据集的评估指标。在表3中,我们将UNILM与CNN/DailyMail上的基线和几个最先进的模型进行了比较。LEAD3是一个基线模型,它提取文档中的前三个句子作为摘要。PGNet[37]是基于指针生成器网络的序列到序列模型。S2S ELMo[13]使用了一个序列对序列模型,该模型通过预先训练的ELMo表示进行扩充,在[13]中被称为SRC-ELMo+SHDEMB。Bottom-Up[16]是一个序列到序列的模型,该模型通过自下而上的内容选择器来选择突出的短语。我们还在表3中列出了数据集的最佳提取摘要结果[27]。如表3所示,我们的模型优于所有以前的抽象系统,在数据集上创建了一个新的最先进的抽象摘要结果。在ROUGE-L中,我们的模型也比最佳提取模型[27]高出0.88个百分点。
在表4中,我们评估了不同规模(10K和3.8M)的千兆字模型。Transformer[43]和OpenNMT[23]都实现了标准的注意序列到序列模型。
Re3Sum[4]检索作为候选模板的摘要,然后使用扩展的sequence-to-sequence模型生成摘要。MASS[39]是一个基于变压器网络的预先训练的序列对序列模型。实验结果表明,UNILM取得了比以前更好的性能。此外,在低资源环境下(即仅使用10000个样本作为训练数据),我们的模型在ROUGE-L中的性能比MASS高出7.08个百分点。

在这里插入图片描述
3.2 Question Answering (QA)
任务是回答给定段落的问题。有两种设置。第一种被称为抽取式问答(extractive QA),其中的答案假设是文章中的一段文字。另一种被称为生成式QA,其中的答案需要动态生成。

Extractive QA
这个任务可以被描述为一个NLU任务,我们需要预测答案在文章中的起始位置和结束位置。我们微调预先训练的UNILM作为任务的双向编码器。我们在斯坦福问答数据集(SQuAD)2.0和会话式问答(CoQA)数据集上进行了实验。
SQuAD 2.0的结果见表5,我们比较了两种模式的精确匹配(EM)和F1分数。RMR+ELMo[20]是一个基于LSTM的问答模型,它通过预先训练的语言表示进行扩充。伯特朗是一个案例模型,对3个时期的训练数据进行了微调,批量大小为24,最大长度为384。UNILM的微调方式与 B e r t l a n g e Bert_{lange} Bertlange相同。我们看到,UNILM的结果优于 B e r t l a n g e Bert_{lange} Bertlange
CoQA是一个会话式问答数据集。与SQuAD相比,CoQA有几个独特的特点。首先,CoQA中的例子是会话的,所以我们需要根据会话历史回答输入问题。其次,CoQA中的答案可以是自由形式的文本,其中很大一部分是yes/no答案。
我们修改了用于SQuAD的模型如下。首先,除了被问到的问题外,我们将问题答案历史连接到第一个片段,这样模型就可以捕捉会话信息。其次,对于yes/no问题,我们使用[SOS]令牌的最终隐藏向量来预测输入是否是yes/no问题,以及答案是yes还是no。
对于其他例子,我们选择一个F1分数最高的通道次档距进行训练。
表6报告了CoQA的结果,在表6中我们比较了两个模型的F1得分。DrQA+ELMo[35]是一种基于LSTM的问答模型,通过预先训练的ELMo表示进行扩充。 B e r t l a r g e Bert_{large} Bertlarge是一个案例模型,对2个时期的CoQA训练数据进行了微调,批量大小为16,最大长度为512。UNILM使用与 B e r t l a r g e Bert_{large} Bertlarge相同的超参数进行微调。我们看到,UNILM的结果优于 B e r t l a r g e Bert_{large} Bertlarge
在这里插入图片描述

Generative QA
生成性问答为输入的问题和文章生成自由形式的答案,这是一个NLG任务。相反,提取方法只能预测输入通道的子串作为答案。关于CoQA数据集(如上所述),Reddy等人。[2019年]表明vanilla序列对序列模型的表现仍然远远低于萃取方法。
我们将UNILM作为一个序列到序列的模型来适应生成式问答。第一段(即输入序列)是会话历史、输入问题和文章的连接。第二段(即输出序列)就是答案。我们在CoQA训练集上对预训练的UNILM进行了10个时期的微调。我们将批大小设置为32,掩码概率设置为0.5,最大长度设置为512。我们还使用0.1的标签平滑。
其他超参数与训练前相同。在解码过程中,我们使用波束搜索,波束大小为3。输入问题和段落的最大长度为470。对于超过最大长度的段落,我们用滑动窗口的方法将文章分成几个块,然后选择一个单词重叠度最高的块。
我们将我们的方法与文献[35]中描述的生成式问答模型Seq2Seq和PGNet进行了比较。Seq2Seq基线是一种具有注意机制的序列对序列模型。PGNet模型通过复制机制扩充Seq2Seq。如表7所示,我们的生成式回答模型比以往的生成式答疑方法有很大的提高,这大大缩小了生成式答疑与抽取式答疑的差距。

3.3 Question Generation
我们对答案感知问题生成任务进行了实验。给定输入段落和答案范围,我们的目标是生成一个要求答案的问题。SQuAD 1.1[33]用于评估。我们将原始训练集分成训练集和测试集,并保留原始的开发集。我们还按照[51]中的数据分割进行实验,这使用了反向的dev-test分割。
问题生成任务被描述为一个序列到序列的问题。第一段是输入段落和答案的连接,第二段是生成的问题。
我们对UNILM进行了10个时期的微调。我们将批处理大小设置为32,掩蔽概率设置为0.7,学习速率设置为2e-5。标签平滑率为0.1。其他超参数与训练前相同。在解码过程中,我们通过选择包含答案的通道块将输入截断为464个令牌。评估指标BLEU-4、METEOR和ROUGE-L的计算方法与[12]中的脚本相同。
结果3见表8。CorefNQG[11]基于一个注意序列到序列模型和一个特征丰富的编码器。MP-GSN[51]使用了一种基于注意的序列到序列模型,并带有门控自注意编码器。SemQG[50]使用两个语义增强的奖励来规范生成。UNILM的性能优于以前的模型,并且在问题生成方面达到了最新的水平。
在这里插入图片描述
Generated Questions Improve QA

该问题生成模型能够从文本语料库中自动获取大量的问题段落答案实例。我们证明了由问题生成生成的扩充数据改进了问答模型。
我们生成了500万个可回答的示例,通过修改可回答的示例,生成了400万个无法回答的示例。我们根据一个时代生成的数据对问答模型进行微调。
然后,该模型在SQuAD2.0数据的基础上再进行两次微调。如表9所示,UNILM生成的扩充数据改进了3.2节中介绍的问答模型。注意,在微调过程中,我们使用双向掩码语言建模作为生成数据集和SQuAD2.0数据集的辅助任务,与直接使用自动生成的示例相比,这带来了2.3的绝对改进。一个可能的原因是辅助任务在对扩充数据进行微调时减轻了灾难性遗忘。

3.4 Response Generation
我们在基于文档的对话响应生成任务上评估UNILM。给定一个多回合的会话历史和一个web文档作为知识源,系统需要生成一个既适合会话又能反映web文档内容的自然语言响应。我们将UNILM作为一个序列到序列模型对任务进行微调。
第一段(输入序列)是web文档和会话历史的连接。第二段(输出序列)是响应。我们在DSTC7训练数据上对UNILM进行了微调,共20个时期,批量大小为64。掩蔽概率设置为0.5。最大长度为512。在解码过程中,我们使用大小为10的波束搜索。生成响应的最大长度设置为40。如表10所示,在DSTC7共享任务[14]的所有评估指标中,UNILM的性能优于最佳系统[41]。

在这里插入图片描述

3.5 GLUE Benchmark
我们根据通用语言理解评估(GLUE)基准评估UNILM[45]。GLUE是九个语言理解任务的集合,包括问题回答[33]、语言可接受性[46]、情感分析[38]、文本相似性[5]、释义检测[10]和自然语言推理(NLI)[7,2,17,3,24,47]。
我们的模型被微调为双向LM。我们使用Adamax[21]作为我们的优化器,学习率为5e-5,批量大小为32。最大时间段数设置为5。使用线性学习速率衰减时间,warmup为0.1。除MNLI为0.3和CoLA/SST-2为0.05外,每个任务的最后一个线性投影的丢失率设置为0.1。为了避免梯度爆炸问题,梯度范数被限制在1以内。我们截断了不超过512的token。
表11显示了从基准评估服务器获得的胶水测试结果。结果表明,UNILM在GLUE任务上的性能与 b e r t l a r g e bert_{large} bertlarge相当。

在这里插入图片描述

4 Conclusion and Future Work

我们提出了一个统一的预训练模型UNILM,该模型针对多个具有共享参数的LM目标进行联合优化。双向的、单向的和序列的LMs的统一使我们能够直接地为NLU和NLG任务微调预训练的UNILM。实验结果表明,在GLUE基准测试和两个问答数据集上,我们的模型优于BERT。此外,UNILM在五个NLG数据集上的性能优于以前的最新模型:CNN/DailyMail和Gigaword抽象摘要、SQuAD问题生成、CoQA生成性问答和DSTC7对话响应生成。
可以从以下几个方面推进工作:
•我们将通过在webscale文本语料库上训练更多的时代和更大的模型,来突破现有方法的局限性。同时,我们还将在终端应用和烧蚀实验上进行更多的实验,以研究在同一网络中预先训练多语言建模任务的能力和益处。
•在我们当前的实验中,我们专注于单语NLP任务。我们也有兴趣扩展UNILM来支持跨语言任务。
•我们将对NLU和NLG任务进行多任务微调,这是多任务深层神经网络(MT-DNN)的自然延伸。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值