Transformer家族简史（PART II）

最新推荐文章于 2024-07-28 17:00:00 发布

iFlyAI

最新推荐文章于 2024-07-28 17:00:00 发布

阅读量383

点赞数

分类专栏：人工智能竞赛 Transformer 深度学习文章标签：算法 python 人工智能深度学习机器学习

本文链接：https://blog.csdn.net/iFlyAI/article/details/112651159

版权

人工智能竞赛同时被 3 个专栏收录

110 篇文章 14 订阅

订阅专栏

深度学习

86 篇文章 1 订阅

订阅专栏

Transformer

7 篇文章 0 订阅

订阅专栏

Fly-AI竞赛服务平台 flyai.com

在开始学习之前推荐大家可以多在 FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

摘要: Transformer 不同 head 所关注的序列长度 span 是不一样的，一些 head（如 Head A）重点关注附近较短的信息，而另外一些 head（如 Head B）则关注在范围更大的全文。如果能在训练中利用这一特性，就可以显著减少计算 ...

继 Transformer家族简史（PART I），PART II整理了三篇来自Facebook AI Research的论文，都比较好读：

「Span Transformer from FAIR，ACL2019」

「All-Attention from FAIR」

「PKM from FAIR，NeurIPS2019」

Adaptive Attention Span in Transformers[1]

这篇论文的重点是改进 Transformer 的计算效率，vanilla transformer 每个 attention head 处理的是等长的所有输入序列，但是在实验中发现 Transformer 不同 head 所关注的序列长度 span 是不一样的，一些 head（如 Head A）重点关注附近较短的信息，而另外一些 head（如 Head B）则关注在范围更大的全文。如果能在训练中利用这一特性，就可以显著减少计算时间和内存占用，因为两者都依赖于注意力范围的长度。

为此，作者提出一种「adaptive attention span」，可以让模型自适应地选择上下文长度进行处理。但是，attention span 的值是整数，因此是不可微的，不能像模型的其他参数那样通过反向传导直接学习它，于是通过 soft-masking function 来将其值转化为连续值。masking 函数是非递增的，将跨度距离映射到[0,1]之间的值。这样，将 masking 函数应用到每一个 attention head 之后，就可以实现 attention span 的自适应控制。具体公式如下：

整体过程如下动图，

此外，考虑了一种扩展「dynamic attention span」，根据输入动态调整 attention span；

在实现中，引用了Self-attention with relative position representations[2]和Transformer-XL[3]中的技巧；

实验结果显示在 12 层模型中，较低层的 attention span 较短，高层（8-12 层）的 attention span 较长

Reference

Code Here[4]

Making Transformer networks simpler and more efficient[5]

Adaptive Attention Span in Transformers 分享视频[6]

Augmenting Self-attention with Persistent Memory[7]

当我们在讨论 Transformer 时，重点都在 self-attention 上，但是不要忘了网络中还有另外一层：前馈层 FFN，其包含了模型中最多的参数，大小通常是其他组件的四倍。FNN 的计算代价如此之高，那么有没有办法将模型简化呢？论文中提出将 FFN layer 替换为 attention layer，在不损失模型性能的前提下将模型结构大大简化。

2.1 FFN --> Attention

虽然表面上 FFN 和 attention 层看起来完全不同，但是通过将 FFN 中的 RELU 激活换成 Softmax 函数就可以将激活值转化为 attention weight。

2.2 All-attention

把 FFN 转化为 attention 之后就可以将原来的两层合并为一层，称为「all-attention layer」。

具体做法就是额外定义一组 key-value 向量对，称为「persistent vectors」，这些向量就和前馈子层的权值是一样的：固定的、可训练的且上下文无关的，可以捕获关于任务的 general knowledge。

2.3 Other tricks

relative position embedding & catching mechanism[8]

adaptive attention span[9]

adaptive softmax[10]

实验结果验证了FFN层和persistent vector的重要性，缺少的话效果非常差。每一层persistent vector的数量在N=1024时已经达到比较好的效果。

2.4 reference

Code Here（没找到 - -）

Making Transformer networks simpler and more efficient[11]

Open Review[12]

Large Memory Layers with Product Keys[13]

同样来自FAIR的工作，解决的痛点：更好的模型性能——>更大的模型capacity——>更大的计算成本。提出了一种structured memory，在明显增加模型capacity的同时计算成本的增加可以忽略不计，而且是简单可插拔式设计，下图是文中将vanilla transformer中的（部分）FFN层替换为memory layer的示例。