对于Transformer 模型----可以从哪些地方进行创新和改进

最新推荐文章于 2025-03-29 14:36:11 发布

磨人的Big_data

最新推荐文章于 2025-03-29 14:36:11 发布

阅读量7.3k

点赞数 9

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_53250079/article/details/128120401

版权

Vit，全称 Vision Transformer，是Transformer在CV方向的应用，是NLP与CV的相互联系、相互促进、相互影响。
自Transformer应用进计算机视觉领域以来，与其相结合的新模型大都表现出了不错的效果。但是，这个过程仍然存在很多值得改进的空间，借鉴其它论文，看看他们是如何思考并改进的。

改进思路

一，分块的改进

论文：Vision Transformer with Progressive Sampling(ICCV2021)
源码

ViT采用的是一种直接明了的标记化(tokenization)方案，该方案将一幅图像分割成一系列规则间隔的patches，这些patches被线性投影到tokens中。通过这种方式，图像被转换成数百个视觉tokens。

这样的方法有以下的问题：

硬分割可能会分离出一些高度相关的区域，这些区域应该用同一组参数建模，这破坏了对象原有的结构，并使得输入patches的信息量变得较少。比如，一整个狗，会被分成几个部分，使得任务变成了要基于某一个部分的识别挑战。
tokens被放置在规则的网格上，而与底层图像内容无关，无法很好地建立起各层图像间的联系。并且，大多数网格聚焦在不感兴趣的背景上，这可能导致感兴趣的前景对象（图像目标）淹没在干扰信号中。

改进思路
人类视觉系统以一种完全不同的方式组织视觉信息，而不是一次不加区别地处理整个场景。取而代之的是，它循序渐进地、选择性地将注意力集中在视觉空间的有趣部分，无论何时何地需要它，而忽略不感兴趣的部分，随着时间的推移，结合来自不同注视的信息来理解场景。

受上述过程的启发，论文提出了一种新的基于transformer的渐进采样（Progressive Sampling）模块，该模块能够学习从哪里看图像，以缓解ViT中简单的tokens化方案带来的问题。

**论文提出的模块不是从固定位置采样，而是以迭代的方式更新采样位置。**在每次迭代中，当前采样步骤的tokens被馈送到transformer编码层，并预测一组采样偏移量以更新下一步的采样位置。该机制利用transformer的能力来捕获全局信息，通过结合本地上下文和当前tokens的位置来估计对感兴趣区域的偏移量。这样，注意力就会像人类视觉一样，一步一步地集中到图像的可辨别区域。

二、相对位置编码的反思与改进

论文：Rethinking and Improving Relative Position Encoding for Vision Transformer(ICCV2021)
源码

思考
transformer位置表示的编码方法主要有两类。一个是绝对的，另一个是相对的。

绝对方法将输入tokens的绝对位置从1编码到最大序列长度。也就是说，每个位置都有单独的编码向量。然后将编码向量与输入Tokens组合，以将位置信息输入给模型。

相对位置方法对输入tokens之间的相对距离进行编码，并学习tokens之间的成对关系。相对位置编码(relative position encoding, RPE)通常通过具有与self-attention模块中的 query 和 key 交互的可学习参数的查询表来计算。这样的方案允许模块捕获Tokens之间非常长的依赖关系。

相对位置编码在自然语言处理中被证明是有效的。然而，在计算机视觉中，这种效果仍然不清楚。最近很少有文献对其进行阐述，但在Vision Transformer方面却得出了有争议的结论。

例如，Dosovitski等人观察到相对位置编码与绝对位置编码相比没有带来任何增益。相反，Srinivaset等人发现相对位置编码可以诱导明显的增益，优于绝对位置编码。此外，最近的工作声称相对位置编码不能和绝对位置编码一样好用。这些工作对相对位置编码在模型中的有效性得出了不同的结论，这促使我们重新审视和反思相对位置编码在Vision Transformer中的应用。

另一方面，语言建模采用原始相对位置编码，输入数据为一维单词序列。但对于视觉任务，