之江实验室提出：用于弱监督目标定位的再注意Transformer

最新推荐文章于 2024-03-04 15:07:26 发布

Amusi（CVer）

最新推荐文章于 2024-03-04 15:07:26 发布

阅读量1.2k

点赞数

文章标签：定位计算机视觉机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247555712&idx=3&sn=2bd04dfbe722653126562baaafbecd40&chksm=f9a1680fced6e1192f3d8fafd3a7175d1963998eb806bb99b4a83de105f1f3adbf25be0b0702&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CV 微信技术交流群

转载自：机器之心

来自之江实验室和浙江大学的研究者提出了一种再注意机制，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

弱监督定位任务（Weakly supervised object localization, WSOL）仅利用图像级别的类别标签，就能实现目标级别的定位功能，因为其细粒度注释的最小化需求大大压缩了人工成本，于近年获得大量关注。

由于缺乏目标级别标签的约束，仅利用图像标签进行分类训练，弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域，难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关？Transformer 类网络结构的长程依赖特性对弱监督定位有何影响？作者通过可视化分析 CAM 方法、纯 transformer 网络的长程特征依赖关系，发现 transformer 网络中的长程依赖有利于克服局部聚焦缺陷，却容易受到背景干扰。

下图 1 展示了不同方法的可视化定位结果，可以看出 CAM 方法存在明显局部聚焦的问题；Transformer 的长程依赖容易产生背景误定位的现象；融合 Transformer 长程依赖和 CAM（参照 TS-CAM 论文方法）的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题，但是问题依旧存在。

图 1：不同方法的可视化结果比对

基于此，来自之江实验室和浙江大学的研究者提出一种再注意机制，即 TRT (token refinement transformer)，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

论文链接：https://arxiv.org/pdf/2208.01838.pdf
Github链接：https://github.com/su-hui-zz/ReAttentionTransformer

方法介绍

图 2：核心方法框架图

上图 2 展示了 TRT 方法的整体框架图，TRT 由 TPSM（Token Priority Scoring Module）和 CAM ( Class Activation Map ) 两个分支构成。其中 TPSM 分支主要由 Token Preliminary Attention、Token Selection 和 Token Re-Attention 三部分组成。Token Preliminary Attention 表示利用 transformer 网络不同层的 class token 和 patch token 之间的长程依赖关系构建初步注意力图；Token Selection 指构建自适应阈值策略，筛选出初步注意力图中与 class token 关联性更高的 patch token；Token Re-Attention 指对筛选的 patch token 执行再注意操作。

训练阶段，针对 CAM 分支和 TPSM 分支输出的分类概率和，与类别标签构建交叉熵损失函数，实现分类训练，如下公式（2）所示。

测试阶段，将 CAM 分支输出的特征与 TPSM 分支输出的特征点乘，生成最终的注意力图M。

token优先级评分模块

token初步注意力

第 l 个 transformer 层的自注意矩阵公式如下式（4）所示，其中的第一行为 class token 的注意力向量，展示了 class token 和所有 patch token 之间的关联关系。将所有层 transformer 层 class token 的注意力向量进行均值融合，得到初步注意力结果 m。

token挑选策略

利用累积分布采样方法构建自适应阈值，具体操作为：对初步注意力结果 m 进行排序并构建积分图，针对积分图结果确定固定阈值，则针对 m 生成了自适应阈值。

操作原理如下式（5）所示，其中 F 为 m 的累积分布函数，严格单调转换为其逆函数。

基于阈值生成二值图，b 中值为 1 的位置表示被筛选的 patch token 的位置。

token再注意

利用二值图 b 构建挑选矩阵 B，并基于矩阵 B 构建掩码自注意力操作。对图 2 中 visual transformer blocks 输出的特征中 patch token 部分执行掩码自注意力操作，对操作结果进行全连接和掩码 softmax 操作，生成重要性权重 λ。

在训练阶段，利用重要性权重λ对进行加权融合，将与融合结果送入最后一个 transformer 层。利用最后一个 transformer 层输出的 class token 生成分类概率。

在测试阶段，从初步注意力结果 m 中获取未被筛选的 patch token 权重信息，从重要性权重 λ 中获取被筛选的 patch token 权重信息，由此生成，如式（10）所示，m' 为的向量形式。

结果

表 1：在 CUB-200-2011 数据集上的定位准确率比较

表 2：在 CUB-200-2011 数据集上的 MaxBoxAccV2 结果比较

表 3：在 ILSVRC 数据集上的定位准确率比较

图 3: ILSVRC 上目标显著性区域以及定位对比

图 4: 在 CUB-200-2011 数据集上的目标显著性区域以及定位结果

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看