之江实验室提出:用于弱监督目标定位的再注意Transformer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:机器之心

来自之江实验室和浙江大学的研究者提出了一种再注意机制,旨在更有效地捕捉目标级别的语义信息,抑制背景干扰,实现更准确的目标定位能力。

弱监督定位任务(Weakly supervised object localization, WSOL)仅利用图像级别的类别标签,就能实现目标级别的定位功能,因为其细粒度注释的最小化需求大大压缩了人工成本,于近年获得大量关注。

由于缺乏目标级别标签的约束,仅利用图像标签进行分类训练,弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域,难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关?Transformer 类网络结构的长程依赖特性对弱监督定位有何影响?作者通过可视化分析 CAM 方法、纯 transformer 网络的长程特征依赖关系,发现 transformer 网络中的长程依赖有利于克服局部聚焦缺陷,却容易受到背景干扰。

下图 1 展示了不同方法的可视化定位结果,可以看出 CAM 方法存在明显局部聚焦的问题;Transformer 的长程依赖容易产生背景误定位的现象;融合 Transformer 长程依赖和 CAM(参照 TS-CAM 论文方法)的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题,但是问题依旧存在。

f802d937563a3dbf85684e75a9210550.png

图 1:不同方法的可视化结果比对

基于此,来自之江实验室和浙江大学的研究者提出一种再注意机制,即 TRT (token refinement transformer),旨在更有效地捕捉目标级别的语义信息,抑制背景干扰,实现更准确的目标定位能力。

9fc6adad4f1b0779af9ac69a906109b2.png

  • 论文链接:https://arxiv.org/pdf/2208.01838.pdf

  • Github链接:https://github.com/su-hui-zz/ReAttentionTransformer

方法介绍

fdaa47f8fe31c4c52c9eab6084895e4a.png

图 2:核心方法框架图

上图 2 展示了 TRT 方法的整体框架图,TRT 由 TPSM(Token Priority Scoring Module)和 CAM ( Class Activation Map ) 两个分支构成。其中 TPSM 分支主要由 Token Preliminary Attention、Token Selection 和 Token Re-Attention 三部分组成。Token Preliminary Attention 表示利用 transformer 网络不同层的 class token 和 patch token 之间的长程依赖关系构建初步注意力图;Token Selection 指构建自适应阈值策略,筛选出初步注意力图中与 class token 关联性更高的 patch token;Token Re-Attention 指对筛选的 patch token 执行再注意操作。

训练阶段,针对 CAM 分支和 TPSM 分支输出的分类概率1d7c26e7a2e304002b17fb192424cd0e.pngc824779433d8844a5fdc3322553853f9.png,与类别标签构建交叉熵损失函数,实现分类训练,如下公式(2)所示。

4a3acce875a4e5d3909fd469f194c11f.png

测试阶段,将 CAM 分支输出的特征8d1a601ef66edb3808a76792ed42fb52.png与 TPSM 分支输出的特征f5a28c16ded7b8d4844426a040b06d57.png点乘,生成最终的注意力图M。

8ca19133827e41ffca636769e216c9b8.png

token优先级评分模块

token初步注意力

第 l 个 transformer 层的自注意矩阵公式如下式(4)所示,其中da16984f21067e58db05b97c24e9098c.png的第一行为 class token 的注意力向量,展示了 class token 和所有 patch token 之间的关联关系。将所有层 transformer 层 class token 的注意力向量进行均值融合,得到初步注意力结果 m。

ff46ad84665bfeed98a5963977b4eef0.png

token挑选策略

利用累积分布采样方法构建自适应阈值,具体操作为:对初步注意力结果 m 进行排序并构建积分图,针对积分图结果确定固定阈值,则针对 m 生成了自适应阈值。

操作原理如下式(5)所示,其中 F 为 m 的累积分布函数,严格单调转换ec35f826bca65260796b25ba937945cf.png为其逆函数。

e846ade6167ad3230747e1d23b544bfe.png

基于阈值生成二值图06439825f1c27eeb1ed5df2294c56649.png,b 中值为 1 的位置表示被筛选的 patch token 的位置。

token再注意

利用二值图 b 构建挑选矩阵 B,并基于矩阵 B 构建掩码自注意力操作。对图 2 中 visual transformer blocks 输出的特征6f19ac8c980e4b72760d8f7d84b3d954.png中 patch token 部分796fa4d54e9b83055c941a89f4373a41.png执行掩码自注意力操作,对操作结果进行全连接和掩码 softmax 操作,生成重要性权重 λ。

在训练阶段,利用重要性权重λ对7d5271c641fd9c972a8829a2b9d12adc.png进行加权融合,将7b9c3cafc8dbfef86dcc42cef49c9394.png与融合结果送入最后一个 transformer 层。利用最后一个 transformer 层输出的 class token 生成分类概率864d7218450967a515ff2705f7a5eeb2.png

在测试阶段,从初步注意力结果 m 中获取未被筛选的 patch token 权重信息,从重要性权重 λ 中获取被筛选的 patch token 权重信息,由此生成f5cc14ca8f4e0531d48dac44c994102c.png,如式(10)所示,m' 为09adb270399affd1dee376d9697a0487.png的向量形式。

7127dce7367a21bd8d08e5ef6ed1e03d.png

结果

e80e16d3dc472e04aaa6cb363281731a.png

表 1:在 CUB-200-2011 数据集上的定位准确率比较

e107de695ab1e5e0c696426e80123f7a.png

表 2:在 CUB-200-2011 数据集上的 MaxBoxAccV2 结果比较

23d70da4aafede54463e343773136396.png

表 3:在 ILSVRC 数据集上的定位准确率比较

9fbd58e5609474e61e39347f886e507a.png

图 3: ILSVRC 上目标显著性区域以及定位对比

1c36476ca0bb3f2db4515de9e85dc2f9.png

图 4: 在 CUB-200-2011 数据集上的目标显著性区域以及定位结果

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据提供的引用内容,没有直接涉及到Transformer监督分割的内容。但是,我们可以通过结合Transformer监督分割的相关知识来回答您的问题。 Transformer是一种基于自注意力机制的神经网络模型,主要用于序列到序列的学习任务,例如机器翻译、文本生成等。而监督分割是指在没有像素级标注的情况下,通过使用较的标注信息(例如图像级标签或边界框)来训练图像分割模型。 因此,Transformer监督分割可以理解为使用Transformer模型来进行监督分割任务。具体来说,可以使用Transformer编码器来提取图像特征,然后将这些特征输入到分割头中进行分割。在训练过程中,可以使用较的标注信息来指导模型学习分割任务。 以下是一个可能的Transformer监督分割的示例代码: ```python import torch import torch.nn as nn import torchvision.models as models class TransformerSegmentation(nn.Module): def __init__(self, num_classes): super(TransformerSegmentation, self).__init__() self.backbone = models.resnet50(pretrained=True) self.transformer = nn.TransformerEncoder(nn.TransformerEncoderLayer(d_model=2048, nhead=8), num_layers=6) self.segmentation_head = nn.Conv2d(2048, num_classes, kernel_size=1) def forward(self, x): # 提取特征 features = self.backbone(x) # 将特征转换为序列 seq = features.view(features.size(0), features.size(1), -1).permute(2, 0, 1) # 使用Transformer编码器进行特征提取 encoded_seq = self.transformer(seq) # 将编码后的序列转换回特征图 encoded_features = encoded_seq.permute(1, 2, 0).view(features.size()) # 分割头 segmentation_map = self.segmentation_head(encoded_features) return segmentation_map # 使用示例 model = TransformerSegmentation(num_classes=2) input_tensor = torch.randn(1, 3, 224, 224) output_tensor = model(input_tensor) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值