智源青年科学家杨植麟：为什么预处理模型XLNet比BERT、RoBERTa更加优越

智源社区

于 2020-03-24 12:30:29 发布

阅读量976

点赞数 1

文章标签：算法编程语言机器学习人工智能 java

本文链接：https://blog.csdn.net/baaibeijing/article/details/107540053

版权

智源青年科学家杨植麟解析了预训练模型XLNet，该模型融合自回归和降噪自编码模型的优点，通过排序语言模型和双流自注意力机制，在18项NLP任务中取得最优成绩。XLNet在预训练和微调的分歧、单词位置信息建模等方面进行了创新，表现出优于BERT和RoBERTa的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在2020年2月11日下午的“智源论坛Live | 青年科学家线上报告会”中，智源青年科学家、Recurrent AI联合创始人杨植麟做了题为《Latest Advances of Neural Language Models》的主题演讲。杨植麟，2019年博士毕业于卡内基梅隆大学，师从苹果AI负责人Ruslan Salakhutdinov，他曾与图灵奖得主Youshua Bengio、Yann LeCun合作发表论文，本科毕业于清华大学，导师为智源学者唐杰教授。杨植麟在自然语言理解、半监督学习等30多个数据集上取得历史最好结果（State-of-the-Art，SOTA）。

在本次演讲中，杨植麟系统解析了他的最新代表作品——XLNet。XLNet是由CMU和Google Brain Team携手提出的自然语言处理预训练框架，杨植麟作为核心研究成员，以第一作者的身份在NIPS 2019上发表了关于XLNet的论文[1]。XLNet 如今已经是NLP领域近年来最被关注的模型之一，它在18 项NLP任务中拿到最优成绩（SOTA），包括机器问答、自然语言推断、情感分析和文档排序等。

在演讲中，杨植麟抽丝剥茧般回顾了他设计XLNet时一步步的思考历程，从融合自回归语言模型，到纳入降噪自编码模型的优点，再到引进双流自注意力机制等，这些创新最终使得XLNet和Google BERT[2]、Facebook RoBERTa [3]模型的对比实验中取得了优异的成绩。此外，杨植麟还展望了对AI数据模型的趋势性看法，见解独到，相信会给大家带来很多启迪。

下面是杨植麟演讲的精彩要点。

整理：王凯

NLP预训练模型近年来的发展

在进入XLNet设计框架之前，杨植麟首先介绍一些相关的前置知识，简介了NLP预训练模型近年来的发展。在NLP领域，可以将训练数据分为两类：一类是有标注数据，即每条数据的类别都经过了人工标注；另一类为无标注数据，也就是无预先人工标注的原始数据。有标注数据因为增加了人工预处理流程，一般会取得比较好的表现，但缺陷是成本比较高，这便导致现存的训练数据一般是由大量无标注数据和少量有标注数据构成。在这样的背景下，NLP学者们便开始提出先无监督预训练、后有监督微调的模型训练范式。

率先出现的是词嵌入模型，典型代表如2013年Mikolov等人提出的Word2Vec[4]、2014年Pennington等人提出的GloVe[5]等，它们可谓是无监督预训练模型的雏形。但词嵌入模型的问题在于一个单词只能对应一个词向量，即在不同的上下文中，同一个词的编码是相同的，这使得语言的一词多义问题无法得到解决。于是学术界开始着力探索基于上下文的预训练模型，尤其是2018年下半年至2019年上八年间涌现了一批代表，包括：Peters等人提出的ELMo [6]、Radford等人提出的GPT系列[7，8]，Devlin等人提出的BERT等。值得一提的是，这些预训练模型的内部组件也在不断改进中：ELMo由循环神经网络LSTM组成，GPT系列、BERT则由基于自注意力机制的Transformer[9]组成，而Tansformer的改进模型——Tansformer-XL[10]，也是杨植麟本人核心参与的代表性作品。

预处理模型XLNet 的特性

XLNet 特性之一：自回归和降噪自编码的融合

下面，我们开始介绍XLNet的设计思想，它继承了近年来主流无监督预训练模型的相关特征、优势，并尝试解决了其中的一些缺陷。杨植麟发现，这些模型主要可以分为两类：

第一类是自回归语言模型，以ELMo 为代表，其训练目标为：

举例：在处理句子“New York is a city”时，首先以“New”为前提预测“York”；然后以“New York”为前提，预测“is”，并以此类推；最终，以“New York is a city”为前提，预测句子终止符。它的优点在于预训练过程完全切合人类从前到后、依次阅读和书写的语言使用习惯，因此对单词的相对位置有较强的建模能力；但缺点在于无法同时对上文和下文进行双向建模，某一个单词的预测无法同时使用双向的上下文信息。此外，由于它必须严格按照单词顺序依次进行单词预测，其并行性较差。

第二类是降噪自编码模型，以BERT为代表，其训练目标为࿱