空间注意力机制_CVPR2020 | SANet:视觉注意力SE模块的改进,并用于语义分割

本文提出了压缩注意力网络(SANet),通过引入SA模块解决语义分割的像素分组问题。SA模块结合了像素分组注意力和逐像素预测,利用压缩注意力通道来处理空间通道的相互依赖性。在PASCAL VOC和PASCAL Context数据集上,SANet展现出优秀的语义分割性能。
摘要由CSDN通过智能技术生成

点击上方“AI算法修炼营”,选择“星标”公众号

精选作品,第一时间送达

f3c6198c5dfe312950a5ac85f8245761.png
本文是一篇关于注意力机制的用于语义分割领域的文章,收录于CVPR2020。主要的思想是通过对视觉注意力模块SE模块进行改进得到了SA模块,同时捕获全局和局部上下文信息,并构建了SANet来完成语义分割任务。文章中对SE模块的改进思想可以学习,并可以迁移到backbone设计等其他领域。

论文地址:https://arxiv.org/pdf/1909.03402.pdf

由于注意力机制能够捕获更多信息特征来提高其表示能力,从而被广泛应用于语义分割网络中。但是,这些注意力机制忽略了语义分割的隐式子任务(像素分组),并受到卷积内核的网格结构的约束。在本文中,提出了一种新颖的压缩注意力网络(SANet)架构,该架构利用有效的压缩注意力(SA)模块来说明两种截然不同的细分特征:i) pixel-group  attention ii)pixel-wise  prediction。具体而言,所提出的SA模块通过引入“注意力”卷积通道将 pixel-group  attention强加于常规卷积上,从而以有效的方式考虑了空间通道的相互依赖性。最终的分割结果是通过合并来自SANet的四个层次结构的输出以集成多尺度上下文信息从而获得增强的逐像素预测。最后,在两个具有挑战性的公共数据集上验证了所提出的SANet的有效性,具体地,在PASCAL VOC上达到了83.2% mIoU(无COCO预训练),而在PASCAL Context上达到了54.4% mIoU。

简介

目前,语义分割方法的进步主要是通过改进逐像素表示以进行精确标记来驱动的。但是,语义分割并不完全等同于逐像素预测。在本文中,认为语义分割可以分解为两个独立的维度:逐像素预测(pixel-wise  prediction)和像素分组(pixel  grouping)。具体来说,逐像素预测解决了每个像素的预测问题,而像素分组强调了像素之间的联系。先前的分割工作主要集中于从像素级别提高分割性能,但很大程度上忽略了像素分组的隐式任务。

通过将语义分割分解为两个子任务,可以发现像素分组中被很大程度上忽略。如图1所示,第一个子任务需要精确的逐像素标注,并将空间约束引入图像分类。最近的分割模型通过使用金字塔池和空洞卷积层聚合上下文特征以进行像素化标记而取得了重大进展,但是空洞卷积的内核限制了在分割网络中学习到的空间特征的形状。多尺度特征聚合策略增强了逐像素的预测结果,但图像的全局信息仍未得到充分利用。

为此,本文介绍了语义分割的第二个子任务——像素分组,该任务直接鼓励将属于同一类的像素分组在一起而没有空间限制。本文设计了一种新颖的SA(squeeze-and-attention)模块来减轻卷积核的局部约束,并专门负责像素分组。SA模块包含能够下采样但不完全压缩的注意力通道,以有效地产生非局部空间注意力,同时避免在输出中使用繁重的空洞卷积。具体来说,注意力卷积用于生成注意力mask,因为每个卷积内核会在输入特征图上进行扫描。与SE模块增强主干网络不同,SA模块整合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值