Vanilla Transformer 和Transformer-XL

hellozhxy

于 2024-05-06 18:42:09 发布

阅读量141

点赞数 2

文章标签： transformer 人工智能深度学习

原文链接：https://zhuanlan.zhihu.com/p/402436755

版权

文章探讨了VanillaTransformer引入辅助损失以优化字符级语言模型的训练，强调了Transformer快速传播信息的能力。Transformer-XL通过循环机制和相对位置编码解决固定长度限制，实现了跨段信息传递和计算效率提升。

摘要由CSDN通过智能技术生成

一、Vanilla Transformer（对网络结构没有很大调整，主要是引入了辅助损失，基于transformer的语言模型）

Character-Level Language Modeling with Deeper Self-Attention

指的是字符级语言模型源自论文 Character-Level Language Modeling with Deeper Self-Attention，在这篇论文中有一段阐述了作者对RNN和transformer的推断，为什么transformer效果比较好，是由于他能够快速在任意距离内传播信息（梯度或者残差信息），而RNN只能一步一步的传递。

We speculate that the transformer’s success here is due to its ability to “quickly” propagate information over arbitrary distances; by comparison, RNNs need to learn to pass relevant information forward step by step

论文中提出了模型越来越深，训练难度越来越大，loss传递越来越难，那么引入auxiliary losses，主要包括三种

【Multiple Positions】 at intermediate sequence positions

【Intermedia Layer Losses】 from intermediate hidden representations

【Multiple Targets】 at target positions multiple steps in the future

这些损失不仅加速了收敛，还能提供正则化的功能

Multiple Positions

预测时不是指预测最后一个位置，而是序列的每个位置都进行预测，例如上图中t1,t2,t3,t4 4个位置都会产生预测然后都会计算loss。训练时，t1~t4产生的loss都不会decay，都是同等重要的。【这一类loss贯穿整个train的全部阶段，不发生衰减】

Intermediate Layer Losses

This schedule drops all intermediate losses after half of the training is done低层的网络权重贡献将越来越小；【中间层的loss并不贯穿整个train始终，而是随着训练进行，逐渐衰减，衰减的方式是，一共有n层网络，当L层训练进行到L/2n （这是个比例）时停止计算loss。也就是说当训练进行到一半的时候（网络层数为n），所有的中间层都不再贡献loss】

Multiple Targets

每次产生两个预测值，包括下一个词和下下一个词，但对于下下步的预测结果产生的loss是要发生衰减的，论文中该loss乘以0.5后再加入到整体的loss中。

预测下一个和下下一个

先前的语言模型一般是通过一个完整的序列预测最后一个词或字符，而此文则预测每个字符，也可以说是一种seq-to-seq模型，只是没有将整个序列先编码成一个向量再解码成字符，而是将encoder和decoder合二为一，直接预测。此文使用Transformer对字符序列建模，相邻的每段之间没有前向和后向的信息交互，同时增加了辅助损失函数来加速模型的训练（新观点）。增加的辅助损失函数有3个，一是预测序列中的每个字符，二是在中间层也预测每个字符，三是每次预测多个字符。

图为隐层为4层的模型的训练过程：

动图封面

训练过程

当分批分段的数据进入模型训练后，段与段之间的关系无法关联，过程如图

动图封面

二、Transformer-XL（Attentive Language Models Beyond a Fixed-Length Context）

创新点：通过引入循环机制和相对位置编码，解决了长度限制问题（形如RNN+Transformer，其中参照RNN使用前一个的输出作为下一时刻的输入的模式，将上一段segment的处理后的隐向量输入给下一段。）

论文的开篇就说明了transformer的特点：Transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling.（训练样本切片阻碍了片与片之间的关联），XL training—Segment Level Recurrence

绿色部分是前面segment的隐层输出，缓存利用上一个segment的隐层信息，而且上一个segment的所有隐向量序列只参与前向计算，不再进行反向传播，这就是所谓的segment-level Recurrence。

如图所示，在训练过程中，使用了上一层的隐向量。

在这也可以明显看出，Q向量仅与当前向量有关系，是以当前单词为中心去查与周围单词的关系

XL prediction

在当前segment中，第n层的每个隐向量的计算，都是利用下一层中包括当前位置在内的，连续前L个长度（上图是4）的隐向量，这是在上面的公式组中没有体现出来的，也是文中没有明说的。每一个位置的隐向量，除了自己的位置，都跟下一层中前(L-1)个位置的token存在依赖关系，而且每往下走一层，依赖关系长度会增加(L-1)，如下图中Evaluation phase所示，所以最长的依赖关系长度是N(L-1)，N是模型中layer的数量。在对长文本进行计算的时候，可以缓存上一个segment的隐向量的结果，prediction的过程中可以重复使用，不必重复计算，大幅提高计算效率。

动图封面