CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

最新推荐文章于 2024-06-03 09:36:57 发布

PaperWeekly

最新推荐文章于 2024-06-03 09:36:57 发布

阅读量2.5k

点赞数 5

文章标签：大数据算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125353453

版权

©PaperWeekly 原创 · 作者 | 邵琪钧
研究方向 | 计算机视觉、深度学习

论文标题：

Learning Affinity from Attention: End-to-End Weakly-Supervised SemanticSegmentation with Transformers

论文地址：

https://arxiv.org/abs/2203.02664

代码地址：

https://github.com/rulixiang/afa

推荐一个自己的深度学习项目：主要用于论文复现，包含图像识别、目标检测、图像分割、自监督等领域。每个项目可以独立运行，并且有对应论文解读。欢迎 star：

https://github.com/KKKSQJ/DeepLearning

前言

本文是一篇基于弱监督，并且使用 Transformer 来进行端到端的语义分割算法。目前基于 image-level 的弱监督语义分割基础都是建立一个良好的类激活图（CAM），而后利用像素间的关系进行建模（pixel-level 的 affinity），从而在 CAM 基础上生成伪标签，再对伪标签进行细化，作为语义分割模型的监督信息。目前的方法主要基于卷积神经网络（CNN），由于 CNN 无法很好的挖掘全局信息，所以，往往导致对象区域不完整。如下图（a）所示。

为了解决这个问题，本文引入自然集成全局信息的 Transformer，为端到端的弱监督语义分割（WSSS）生成完整的初始伪标签。基于 Transformer 的自注意力与语义 affinity 之间的内在一致性，本文提出一个从注意力中学习 affinity 的模块此外（affinity from Attention，AFA）。为了有效的获得可靠的 affinity 标签来监督 AFA 并保证伪标签的局部一致性，作者设计了一个像素自适应细化模块（PAR），该模块融合低级图像外观信息来细化标签。实验证明，该方法在 PASCAL VOC 2012 和 MS COCO 2014 数据集上分别实现了 66.0% 和 38.9% 的 mIoU，显著优于近期的端到端方法和几个多阶段算法。

相关介绍

弱监督语义分割（WSSS）：目前的基于 image-level 的弱监督语义分割基础都是建立于一个良好的类激活图（CAM），而后利用像素间的关系进行建模（pixel-level 的 affinity），从而在一个 CAM 的基础上得到一些良好的结果，进而为语义分割生成伪标签。

先前的一些方法：

1. 双阶段方法：第一阶段训练一个分类网络，利用 CAM 来产生初始伪标签。伪标签经过细化之后，作为第二阶段的监督信息，去训练一个独立的分割模型。（该方法流程复杂化，并且效率低下）

2. 端到端方法：目前大多数端到端的方法基于 CNN，利用 CNN 来产生 CAM，进而生成伪标签。然而 CNN 无法很好的获取全局信息，从而导致无法获取完整的对象区域，从而影响生成的伪标签的质量。

视觉中的 Transformer：Vision Transformer 在论文 VIt 中被提出，将 Transformer 应用到图像中，并取得了显著的成功。由于 Transformer 的自注意力机制࿰

最低0.47元/天解锁文章

PaperWeekly

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

©PaperWeekly 原创 ·作者 | 邵琪钧研究方向 | 计算机视觉、深度学习论文标题：Learning Affinity from Attention: End-to-End Weakly-Supervised SemanticSegmentation with Transformers论文地址：https://arxiv.org/abs/2203.02664代...
复制链接

扫一扫