读文章笔记（三）：从源码学习Transformer

最新推荐文章于 2024-01-22 15:52:14 发布

Laura_Wangzx

最新推荐文章于 2024-01-22 15:52:14 发布

阅读量97

点赞数

分类专栏：读文章笔记与会议学习笔记

原文链接：https://mp.weixin.qq.com/s/0NajB_60WKCWTNpOU4PdBQ

版权

25 篇文章 8 订阅

订阅专栏

Transformer总体结构：是一个encoder-decoder结构，去掉了RNN序列结构，完全基于attention和全连接。
在这里插入图片描述

原始文本经过embedding层进行向量化，它包括token embedding和position embedding两层。输入层对inputs文本做token embedding，并对每个字做position encoding，然后叠加在一起，作为最终的输入。

采用固定词向量，比如利用Word2vec预先训练好的。这种方式是LSTM时代常用的方式，比较简单省事，无需训练。但由于词向量是固定的，不能解决一词多义的问题，词语本身也不是contextual的，没有结合上下文语境信息，另外对于不在词向量中的词语，比如特定领域词语或者新词，容易出现OOV问题。
随机初始化，然后训练。这种方式比较麻烦，需要大规模训练语料，但能解决固定词向量的一系列问题。Transformer采用了这种方式。

另外，基于Transformer的BERT模型在中文处理时，直接基于字做embedding，优点有：

position encoding
进行位置编码的原因：原因在于self-attention，将任意两个字之间距离缩小为1，丢失了字的位置信息，故我们需要加上这一信息。我们也可以想到两种方法：

固定编码。Transformer采用了这一方式，通过奇数列cos函数，偶数列sin函数方式，利用三角函数对位置进行固定编码。
动态训练。BERT采用了这种方式。先随机初始化一个embedding table，然后训练得到table 参数值。predict时通过embedding_lookup找到每个位置的embedding。这种方式和token embedding类似。
优缺点：
固定编码方式简洁，不需要训练。且不受embedding table维度影响，理论上可以支持任意长度文本。（但要尽量避免预测文本很长，但训练集文本较短的case）
动态训练方式，在语料比较大时，准确度比较好。但需要训练，且最致命的是，限制了输入文本长度。当文本长度大于position embedding table维度时，超出的position无法查表得到embedding（可以理解为OOV了）。这也是为什么BERT模型文本长度最大512的原因。

decoder的每个子层包括三层。

masked multi-head self-attention。这一部分和encoder基本相同，区别在于decoder为了保证模型不能看见要预测字的后面位置的字，加入了mask，从而避免未来信息的穿越问题。mask为一个上三角矩阵，上三角全为1，下三角和对角线全为0
multi-head soft-attention。soft-attention和self-attention结构基本相同，甚至实现函数都是同一个。唯一的区别在于，self-attention的q k v矩阵来自同一个，所以叫self-attention。而soft-attention的q来自decoder，k和v来自encoder。表征的是encoder的整体输出对于decoder的贡献。
feed-forward。这一块基本相同。