2021.7

11.MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens

Motiviton:

         将vision transformer应用于下游任务,需要解决两个关键问题,即涉及层次分辨率以捕捉精细的多尺度特征和降低全局注意力计算带来的成本。PVT提出在多分辨率阶段下处理特征,并对K和V特征进行下采样,以降低计算成本。Swin -T提出在局部窗口中计算注意力。我们新提出MSG tokens从窗口中提取信息,并使用轻量级方法,即shuffle,在MSG tokens之间交换信息。这种简洁的方式避免了以前的CNN-attention混合方法和Swin-T中涉及的繁琐的1D-2D特征转换和复杂的实现方法.

MSG tokens and MSG-Trans block:

 

 MSG-T OverView

        目前在对象检测任务方面,Swin-T取得极高的性能,MSG-Transformers取得了与其类似的性能。此外,MSG tokens使特征交互过程更加简洁易实现,并具有在下游任务中融合本地特征的潜力,具有很高的灵活性和多样性。

 12.RegionViT: Regional-to-Local Attention for Vision Transformers

Motivation:

       鉴于ViT架构,在使用transformer解决视觉任务时,通常面临两个问题.1用不同尺度建模上下文和以不同尺度分配计算的能力。2自关注模块在内存和计算方面与序列长度(即token数量)有关的二次复杂度成本。

       本文提出一种方法,将图像以两种不同尺寸划分patch,得到两种类型的tokens,为了实现两种类型的tokens之间的通信,我们首先对区域tokens执行自我关注(region attention),然后关注每个区域的局部tokens,包括它们相关联的区域tokens(local  attention)。方法(R2L)如下图:

 Regional-to-Local Transformer Encoder:

         RSA在所有region tokens之间交换信息,覆盖整个图像的上下文;而LSA则需要组合属于区域的 local tokens,并且结合region tokens和local tokens,获取一个r-token然后与同一区域中的l-tokens组合的区域之间交换信息,实现了在获得全局信息的同时更加关注局部信息.

 RegionViT OverView:

 13.XCiT: Cross-Covariance Image Transformer

Motivation:

        基于transformer在视觉领域的应用,时间和内存的二次复杂性,阻碍了长序列和高分辨率图像的应用。我们提出了一种“转置”版本的自我关注,它跨特征通道而不是token运行,其中交互基于K和Q之间的交叉矩阵运算。由此产生的cross-covariance attention(XCA)在token数量上具有线性复杂度.

XCiT layer block:

 本文核心XCA的实现:

          实验结果表明本文提出的XCiT模型可以高效地处理高分辨率图像。此外,与ViT模型相比,XCiT对变化的图像分辨率具有更好的适应性.

 14.P2T: Pyramid Pooling Transformer for Scene Understanding

 Motivation:

         最近提出的各种vision transformer中通常有两个问题:

        1)多头自注意(MHSA)的计算具有较高的计算/空间复杂度;

        2)最近的vision transformer网络过度调整图像分类(场景简单,更类似于NLP),忽略了下游场景理解任务(复杂场景,丰富的结构和上下文信息。

       为此,由于金字塔池在上下文抽象方面的强大能力,并且它的空间不变性的自然属性也适用于解决结构信息的丢失(问题2))。因此,我们建议将金字塔池适用于MHSA,以减轻其对计算资源的高要求(问题1)。通过这种方式,这种基于池的MHSA可以很好地解决上述两个问题,因此对于下游场景理解任务是灵活和强大的。本文构建了一个面向下游任务的trans网络,称为pyramid pooling transformer(P2T)。

P2T OverView:

Pyramid pooling transformer block and detail:

P-MHSA实现细节:

        由于K和V的长度小于X,因此提出的P-MHSA比传统的MHSA具有更低的复杂度。此外,由于K和V包含高度结构化的多尺度信息,所提出的P-MHSA在全局上下文相关性建模方面具有更强的能力.

15.Focal Self-attention for Local-Global Interactions in Vision Transformers

 Motivation:

        vision transformer及其变体在各种计算机视觉任务中显示出巨大的前景。通过自我关注捕捉短距离和长距离视觉依赖的能力是成功的关键。但是,由于二次计算开销,它也带来了挑战,尤其是对于高分辨率视觉任务(例如,物体检测)。最近的许多工作试图通过应用粗粒度的全局关注或细粒度的局部关注来降低计算和存储成本并提高性能。然而,这两种方法都削弱了transformer的原始自关注机制的建模能力。本文提出了focal attention,这是一种结合了细粒度局部和粗粒度全局交互的新机制。在这种新机制中,每个token以细粒度关注其最近的周围tokens,以粗粒度关注远处的tokens,因此可以高效地捕获短距离和长距离的视觉依赖。凭借focal attention,提出了一种vision transformer模型的新变体,称为Focal Transformer.

       特征图中的query token以最精细的粒度出现在其最近的周围。当它到达更远的区域时,则使用粗粒度的视觉依赖。区域离query越远,粒度越粗,因此,它可以有效地覆盖整个高分辨率特征图,同时在自关注计算中引入的token数量比在完全自关注机制中少得多.

 Focal Transformer OverView:

 Focal SA Block And Detail:

合并sub-window计算操作:

Q,K,V 的获取计算:

在COCO数据集上与最先进的对象检测方法相比较:

 16.Transformer Network for Significant Stenosis Detection in CCTA of Coronary Arteries

 Motivation:

        引起冠心病的冠状动脉斑块的复杂性使得冠状动脉造影(CCTA)中冠状动脉狭窄的自动检测成为一项困难的任务.已有的RNN方法虽然能够在一定程度上捕捉单个方向上语义特征之间的依赖关系,但很少考虑冠状动脉分支的全局干预来检测冠状动脉狭窄。为了确保模型能够在检测到局部冠状动脉狭窄之前学习整个冠状动脉分支的语义特征,我们将Transformer引入,提出的TR-Net结合了3D-CNN和Transformer。前者在提取局部语义信息方面具有相对较大的优势,而后者可以更自然地关联全局语义信息。我们采用了一种浅层3D-CNN来提取冠状动脉的局部语义特征,获取图像中每个位置的语义信息。然后,使用Transformer编码器来分析特征序列,这可以挖掘局部狭窄对冠状动脉每个位置的潜在依赖性

 TR-Net OverView:

       又因为不同部位斑块之间的潜在关系对临床诊断具有重要价值。在这项工作中,对于中心线上的图像块,在两个方向的斑块上都有可能影响检测结果的图像信息,为了将每个立方块的顺序信息引入到我们的模型中,我们在将order embeddings输入到Transformer结构之前:

 

 17.End-to-End Object Detection with Transformers

 Motivation:

        本文提出模型DETR,简化了目标检测算法的流程,同时将那些需要手动设计的技巧NMS(极大值抑制)和anchor删除,实现端到端自动训练和学习。DETR算法使基于集合的全局损失函数,通过二部图匹配编码解码网络结构来强制进行唯一的预测。 给定一小组固定的经过学习的object queries,DETR根据对象和全局图像上下文的关系,直接并行输出最终的预测集。 与许多其他检测算法不同,新模型在概念上很简单,不需要专门的库。

目标检测集合预测损失:最优的二分匹配损失与bounding box损失

 y=(b,c),其中c是目标的类别,b是值域在[0,1]的四维向量,bbox的中心坐标与宽高。

DETR Network:

encoder: 使用1x1的卷积降低特征的通道数到d。encoder的输入是一个序列,所以将特征的size调整到d x HW。每个encoder层又 multi-head self-attention模块和FFN组成。由于transformer对排列顺序不敏感,所以我们加入了位置的编码,并添加到所有attention层的输入。

decoder: 与常规transformer的区别就是,本文可以并行的解码,而之前的transformer都是自回归的依次解码。由于decoder也是对排列顺序不敏感,这N个embedings必须不一样,才能预测不同的结果。这些object queries是学到的位置编码(初始值设为0)。

 在COCO验证集上与带有ResNet-50和ResNet-101主干的fast RCNN进行比较:

18.Transformer in Transformer

Motivation:

       Transformer是一种最初用于NLP任务的基于自注意力的神经网络。最近提出的基于Transformer的模型来解决视觉问题。这些视觉Transformer通常将图像视为一系列patches,而忽略每个patch内部的固有结构信息。基于此,本文提出了一种新颖的Transformer-iN-Transformer(TNT)模型,用于对 patch级和像素级表示双尺度进行建模。

TNT OverView:

     应用了计算机视觉领域比较经典的金字塔式结构.实验表明(TNT+DETR),在计算和存储成本增加很少的情况下,我们的TNT块可以有效地对局部结构信息进行建模进而对全局进行更好的估计,在准确性和复杂性之间取得更好的平衡。

 19.Adaptive Image Transformer for One-Shot Object Detection

 Motivation:

         一次性目标检测旨在识别目标图像中同一类的所有对象实例,由查询图像片暗示。主要困难在于训练数据中没有查询补丁的类标签及其各自的例子。我们的主要思想是利用语言翻译的概念来促进metric-learning-based的检测方法。具体来说,我们模拟语言翻译过程,自适应地翻译每个预测对象的特征,以更好地关联给定的查询特征,从而区分预测-查询对之间的类相似性。为此,我们提出了 Adaptive Image Transformer(AIT)模块,能够很好地预测目标图像和查询图像块之间的类相似性

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值