CCNet: Criss-Cross Attention for Semantic Segmentation阅读笔记

最新推荐文章于 2024-07-30 15:45:00 发布

Ma lidong

最新推荐文章于 2024-07-30 15:45:00 发布

阅读量1k

收藏 3

点赞数 1

分类专栏： Visual Transformer 文章标签：计算机视觉深度学习人工智能原力计划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41684249/article/details/115492390

版权

Visual Transformer 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

ICCV 2019
Z. Huang, X. Wang, L. Huang, C. Huang, Y . Wei, and W. Liu

一、简介

上下文信息在语义分割、目标检测等视觉理解问题中起着至关重要的作用。

提出了criss-cross attention模块，它可以更有效地从全图像依赖关系中捕获上下文信息。

提出了类别一致性损失来强化交叉注意模块，以产生更具区分性的特征。

CCNet具有以下优点：1)GPU内存友好。与非局部块相比，提出的循环交叉注意模块所需的GPU内存使用量减少了11倍。2)计算效率高。反复的交叉注意显著减少了大约85%的非局部阻滞。

二、Criss-Cross Attention

2.1 动机

在这里插入图片描述

Non-local Network利用self-attention（自我注意力机制）使得来自任何位置的单个特征能够感知所有其他位置的特征，从而获取全图像上下文信息，如图a。Non-local Network允许一种灵活的方式来表示特征之间的非局部关系，然而，需要生成巨大的关注图来度量每个像素对之间的关系，导致时间和空间的复杂度非常高。

为了解决上述问题，我们使用几个连续的稀疏连通图来代替普通的单密度连通图，这通常需要的计算资源更少。

我们使用两个连续的交叉注意力模块，其中每个模块对于特征图中的每个位置只有稀疏连接。纵横交错的注意力模块在其水平和垂直方向上聚合上下文信息。如图b，通过连续堆叠两个纵横交错的注意力模块，每个位置可以从给定图像中的所有像素中收集到上下文信息。

2.2 模块结构

在这里插入图片描述

将输入分别通过一个1×1的卷积核得到Q、K和V。
将K上图像中心展开的纵横元素与Q上的每一个C维的特征向量进行乘积求和操作。然后将得到的结果进行softmax操作。该结果就是关系参数。
将2得到的关系参数与V进行权重聚合的操作（点积），实际上就是该点通过2所得的参数对应全图像的特征进行加权求和的操作。并且使用了残差结构。

2.3 Recurrent Criss-Cross Attention (RCCA)

尽管纵横交错的注意模块可以捕捉水平和垂直方向的上下文信息，但一个像素与其周围不在纵横交错路径上的像素之间的联系仍然不存在。为了解决这个问题，我们创新性地简单地引入了一种基于交叉注意的RCCA操作。

在这里插入图片描述

RCCA可以展开为R个环路。首先以H作为输入，得到输出图H0，然后以H0作为输入，输出H1。如图2所示，RCCA模块配备了两个环路(R=2)，能够从所有像素获取全图像上下文信息，以生成具有密集和丰富上下文信息的新特征。

三、Learning Category Consistent Features

RCCA产生的深层特征具有丰富的背景，但聚集特征可能存在过度平滑的问题。为了解决这一潜在的问题，除了交叉熵损失的分段惩罚最终预测分割图与地面事实之间的不匹配之外，我们进一步引入类别一致性损失来驱动RCCA模块直接学习类别一致性特征。

我们不再一直使用二次函数作为距离函数来惩罚失配，而是设计了分段距离函数来提高优化的鲁棒性。

在这里插入图片描述

在这里插入图片描述

为了减少运算量，我们首先在RCCA模块的输出上加一层1×1滤波器的卷积层进行降维，然后在通道较少的特征图上应用这三种损失。“最终损失”是所有损失的加权总和。

四、整体模型

在这里插入图片描述

图像输入进网络后，先通过CNN，CNN选择ResNet-101网络，最后两个stage的stride改为1，同时用洞卷积扩大感受野，得到的特征图X是原图的1/8。
随后经过1×1卷积降维，得到H。
H经过一个criss-cross attention module得到H’，此时H’中的每个位置捕捉到和u在同一行或同一列的context information。
H`经过一个criss-cross attention module得到H’’，在H’’中的每个位置，捕捉的是全局性的context information。这里的模块与3是同一个模块，参数是相同的。
最后将X与H’’级联，经过分割层得出结果。

五、实验

在这里插入图片描述

Ma lidong

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ma lidong 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值