Vision Transformer之LambdaNetworks

最新推荐文章于 2024-06-16 09:42:12 发布

有为少年

最新推荐文章于 2024-06-16 09:42:12 发布

阅读量567

点赞数 2

分类专栏：深度学习文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/P_LarT/article/details/114859564

版权

深度学习专栏收录该内容

149 篇文章 19 订阅

订阅专栏

原始文档： https://www.yuque.com/lart/papers/lhnua2

文章目录

前言

这个作者太能写了，三十页！。。。

ICLR 2021的一篇文章。提出了一种Self-Attention的备选方案，用来捕获输入和结构化上下文信息之间的长距离交互，例如像素和周围的其他的像素，同时进一步降低attention计算的存储需求。
提出了一种lambda layer，这可以通过将需要关注的上下文内容转化为针对当前位置的的一种线性函数/变换（这被称为lambdas）以独立的作用于每个输入。而且这里的lambda layer用途广泛，可以实现以在全局，局部或蒙版上下文中对基于内容的交互和基于位置的交互进行建模。
生成的神经网络LambdaNetworks计算效率高，可以以较小的内存成本对远距离依赖性进行建模，因此可以应用于大型结构化输入（例如高分辨率图像）。

基于内容的交互(content-based interaction)，考虑上下文的内容，但忽略query位置和上下文(context)之间的关系(例如，两个像素之间的相对距离)。
基于位置的交互(position-based interaction)，考虑query位置和上下文(context)位置之间的关系。

Lambda Layers

lambda layers

层的计算涉及到如下两个输入，但是实际上亦可使用同一个，即类似于Self-Attention的情况
- 输入 $\in \mathbb{R}^{|n| \times d_{in}}$ ，用来生成query
- context $\in \mathbb{R}^{|m| \times d_{c}}$ ，用来生成线性函数lambdas，作用于queries
输出 $\in \mathbb{R}^{|n| \times d_{out}}$
lambda层主要包含两部分计算
- 生成基于上下文的lambda函数。其中包含了两部分，content lambda $\lambda^c$ 和position lambda $\lambda^p_n$ 。这里的key $K$ 和value $V$ 通过对context $C$ 线性投影获得，然后，被softmax操作归一化处理的key $\bar{K}$ 和对应于 $q_n$ 的相对位置嵌入 $E_n$ 一同来集成value $V$ ，从而可以获得最终的lambda函数。
  - 可以观察到，这里的 content lambda 实际上在所有的n是共享的，与n无关，这对于context element的置换是不变的，编码了如何基于context content来单独地转换query。
  - 而 position lambda 则是通过位置嵌入从而依赖于query的位置n，这编码了如何基于context元素 $c_m$ （有 $V$ 来提供context的信息）和他们的相对位置关系 $(n, m)$ 来转换query。
- 将lambda应用于对应的query上。这里的query $q_n \in \mathbb{R}^{|k|}$ 通过 $x_n$ 投影所得。
整个lambda层，通过在lambda函数中基于context’s content(content-based interactions)和structure(position-based interactions)来整合上下文特征，并基于query动态的分配这些特征产生最终的输出。不再需要产生attention maps了。
在实验中验证了，在两部分（生成lambda和应用lambda）计算中加入非线性和归一化操作的有效性。

multi-query形式

即面对一个batch包含的 $∣ b ∣$ 个样本，每个样本内包含 $∣ n ∣$ 个输入的情况，即对应有bn个query元素。
此时的计算规则从代码来看最清楚：

multi-query的实现

对应于原始的multi-head的实现

这里相对于self-attention中的multi-head，提出了一个对应的mutli-query，也就是说对query进行分组，每h个query共享一个lambda $\lambda_{n} \in \mathbb{R}^{|k| \times |h| / |d|}$ ，而对应的有 $q_n \in \mathbb{R}^{|hk|}$ 。

需要注意与self-attention中的multi-head的差异：

Using multiple queries in the attention operation increases representational power and complexity.
In contrast, using multiple queries in the lambda layer decreases complexity and representational power (ignoring the additional queries).

lambda convolution

尽管远距离交互有很多好处，但在许多任务中，局部性仍然是一个强烈的归纳偏置。使用全局上下文可能会导致噪声或计算量过大。因此，将位置交互作用的范围限制为query位置周围的局部邻域可能是有用的。这可以通过将上下文位置m在所需范围之外的相对位置嵌入置零来完成。但是，对于较大的 $∣ m ∣$ 值，此策略仍然消耗巨大，因为仍会进行计算，它们只是被清零。在将上下文排列在多维网格中的情况下，我们可以使用常规卷积等效地从局部上下文中计算位置lambda。我们称此操作为lambda convolution。这可以使用具有通道数整数倍的n-d深度分离卷积或将V中的v维视为额外空间维度的**(n+1)-d卷积**来实现n维lambda卷积。

由于现在将计算限制在局部范围内，因此lambda卷积获得了相对于输入长度的线性时间和存储复杂度。lambda卷积易于与其他卷积特性配合使用，例如扩张和跨步，并在专用硬件加速器上享有优化的实现方式。这与局部self-attention的实现形成鲜明对比，后者需要实现重叠query和context block的特征patch，从而增加了内存消耗和延迟。

intra-depth

文章简要地尝试了一个变体，该变体能够增加计算lambda的成本，同时保持应用它们的成本不变。这通过在key，位置嵌入和value中引入一个附加维度（称为具有相应超参数 $∣ u ∣$ 的内部深度）来实现的。
现在，每个键（或位置嵌入）都是 $\times |u|$ 矩阵，而不是 $∣ k ∣$ 维向量。类似地，每个值现在是 $\times |u|$ 矩阵，而不是 $∣ v ∣$ 维向量。
lambdas通过对上下文位置和intra-depth position $∣ u ∣$ 求和而得，并具有类似于默认情况的 $|k|\times |v|$ 的形状。
实验表明，此变体可提高准确性，但我们发现在现代机器学习加速器上控制速度时，使用 $∣ u ∣ = 1$ （即默认情况）是最佳选择。