​CVPR 2022 | 从自注意力中学习语义Affinity,用于端到端弱监督语义分割

fc2d29bd5e855ec840b6cef41ac509e4.gif

©PaperWeekly 原创 · 作者 | 邵琪钧
研究方向 | 计算机视觉、深度学习

2657bfa71a6d8a33a55ed561b4d0ecd4.png

论文标题:

Learning Affinity from Attention: End-to-End Weakly-Supervised SemanticSegmentation with Transformers

论文地址:

https://arxiv.org/abs/2203.02664

代码地址:

https://github.com/rulixiang/afa

推荐一个自己的深度学习项目:主要用于论文复现,包含图像识别、目标检测、图像分割、自监督等领域。每个项目可以独立运行,并且有对应论文解读。欢迎 star:

https://github.com/KKKSQJ/DeepLearning

68a2c4207827b2fccd3f41e01899a6a1.png

前言

本文是一篇基于弱监督,并且使用 Transformer 来进行端到端语义分割算法。目前基于 image-level 的弱监督语义分割基础都是建立一个良好的类激活图(CAM),而后利用像素间的关系进行建模(pixel-level 的 affinity),从而在 CAM 基础上生成伪标签,再对伪标签进行细化,作为语义分割模型的监督信息。目前的方法主要基于卷积神经网络(CNN),由于 CNN 无法很好的挖掘全局信息,所以,往往导致对象区域不完整。如下图(a)所示。

为了解决这个问题,本文引入自然集成全局信息的 Transformer,为端到端的弱监督语义分割(WSSS)生成完整的初始伪标签。基于 Transformer 的自注意力与语义 affinity 之间的内在一致性,本文提出一个从注意力中学习 affinity 的模块此外(affinity from Attention,AFA)。为了有效的获得可靠的 affinity 标签来监督 AFA 并保证伪标签的局部一致性,作者设计了一个像素自适应细化模块(PAR),该模块融合低级图像外观信息来细化标签实验证明,该方法在 PASCAL VOC 2012 和 MS COCO 2014 数据集上分别实现了 66.0% 和 38.9% 的 mIoU,显著优于近期的端到端方法和几个多阶段算法。

a9e901e6cd134aa43b6a7166665020ee.png

937270038e62da69fe31f4391d61ac47.png

相关介绍

弱监督语义分割(WSSS):目前的基于 image-level 的弱监督语义分割基础都是建立于一个良好的类激活图(CAM),而后利用像素间的关系进行建模(pixel-level 的 affinity),从而在一个 CAM 的基础上得到一些良好的结果,进而为语义分割生成伪标签。

先前的一些方法:

1. 双阶段方法:第一阶段训练一个分类网络,利用 CAM 来产生初始伪标签。伪标签经过细化之后,作为第二阶段的监督信息,去训练一个独立的分割模型。(该方法流程复杂化,并且效率低下)

2. 端到端方法:目前大多数端到端的方法基于 CNN,利用 CNN 来产生 CAM,进而生成伪标签。然而 CNN 无法很好的获取全局信息,从而导致无法获取完整的对象区域,从而影响生成的伪标签的质量。

视觉中的 Transformer:Vision Transformer 在论文 VIt 中被提出,将 Transformer 应用到图像中,并取得了显著的成功。由于 Transformer 的自注意力机制,

  • 5
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值