对于Transformer 模型----可以从哪些地方进行创新和改进

Vit,全称 Vision Transformer,是Transformer在CV方向的应用,是NLP与CV的相互联系、相互促进、相互影响。
自Transformer应用进计算机视觉领域以来,与其相结合的新模型大都表现出了不错的效果。但是,这个过程仍然存在很多值得改进的空间,借鉴其它论文,看看他们是如何思考并改进的。

改进思路

一,分块的改进

论文:Vision Transformer with Progressive Sampling(ICCV2021)
源码

ViT采用的是一种直接明了的标记化(tokenization)方案,该方案将一幅图像分割成一系列规则间隔的patches,这些patches被线性投影到tokens中。通过这种方式,图像被转换成数百个视觉tokens。

这样的方法有以下的问题:

  1. 硬分割可能会分离出一些高度相关的区域,这些区域应该用同一组参数建模,这破坏了对象原有的结构,并使得输入patches的信息量变得较少。比如,一整个狗,会被分成几个部分,使得任务变成了要基于某一个部分的识别挑战。
  2. tokens被放置在规则的网格上,而与底层图像内容无关,无法很好地建立起各层图像间的联系。并且,大多数网格聚焦在不感兴趣的背景上,这可能导致感兴趣的前景对象(图像目标)淹没在干扰信号中。

改进思路
人类视觉系统以一种完全不同的方式组织视觉信息,而不是一次不加区别地处理整个场景。取而代之的是,它循序渐进地、选择性地将注意力集中在视觉空间的有趣部分,无论何时何地需要它,而忽略不感兴趣的部分,随着时间的推移,结合来自不同注视的信息来理解场景。

受上述过程的启发,论文提出了一种新的基于transformer的渐进采样(Progressive Sampling)模块,该模块能够学习从哪里看图像,以缓解ViT中简单的tokens化方案带来的问题。

**论文提出的模块不是从固定位置采样,而是以迭代的方式更新采样位置。**在每次迭代中,当前采样步骤的tokens被馈送到transformer编码层,并预测一组采样偏移量以更新下一步的采样位置。该机制利用transformer的能力来捕获全局信息,通过结合本地上下文和当前tokens的位置来估计对感兴趣区域的偏移量。这样,注意力就会像人类视觉一样,一步一步地集中到图像的可辨别区域。

二、相对位置编码的反思与改进

论文:Rethinking and Improving Relative Position Encoding for Vision Transformer(ICCV2021)
源码

思考
transformer位置表示的编码方法主要有两类。一个是绝对的,另一个是相对的。

绝对方法将输入tokens的绝对位置从1编码到最大序列长度。也就是说,每个位置都有单独的编码向量。然后将编码向量与输入Tokens组合,以将位置信息输入给模型。

相对位置方法对输入tokens之间的相对距离进行编码,并学习tokens之间的成对关系。相对位置编码(relative position encoding, RPE)通常通过具有与self-attention模块中的 query 和 key 交互的可学习参数的查询表来计算。这样的方案允许模块捕获Tokens之间非常长的依赖关系。

相对位置编码在自然语言处理中被证明是有效的。然而,在计算机视觉中,这种效果仍然不清楚。最近很少有文献对其进行阐述,但在Vision Transformer方面却得出了有争议的结论。

例如,Dosovitski等人观察到相对位置编码与绝对位置编码相比没有带来任何增益。相反,Srinivaset等人发现相对位置编码可以诱导明显的增益,优于绝对位置编码。此外,最近的工作声称相对位置编码不能和绝对位置编码一样好用。这些工作对相对位置编码在模型中的有效性得出了不同的结论,这促使我们重新审视和反思相对位置编码在Vision Transformer中的应用。

另一方面,语言建模采用原始相对位置编码,输入数据为一维单词序列。但对于视觉任务,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值