Dual Attention Network for Scene Segmentation

论文地址http://arxiv.org/abs/1809.02983

Introduction
1 通过DANet捕获背景信息
2 在FCN的顶部,引入两个attention模块;分别为:position attention module和channel attention module,使得在空间和通道在更大范围的捕获背景信息
3 将引入的两个模块合并相加最后得出预测值;

结构介绍
在这里插入图片描述
在ResNet的最后两个残差块,移除了下采样操作,而使用空洞卷积,使得最终的特征映射的尺寸扩大道输入图像的1/8;

卷积的作用获得下采样的特征;Sum fusion指的是卷积+逐元素相加操作;

PAM 作用:
捕获特征映射任意两个位置的空间相关性;在特定位置的特征,通过所有位置的加权和和的合并来更新;它的权值由两个位置之间的特征相对性决定。

PAM 产生空间更大范围的背景信息的新特征
1 产生空间attention矩阵,矩阵是任何特征的两个像素之间的空间关系的模块;
2 attention矩阵和原始特征执行矩阵相乘的操作;
3 第2步得到的矩阵相乘的结果操作和原始特征执行逐元素相加操作。

PAM结构
在这里插入图片描述
局部特征A;
首先将A送入到具有正则化和Relu层的卷积层,以此来产生两个特征映射B和C;将C转置和B执行矩阵相乘,使用softmax层计算空间attention的映射。
同时,将特征A送入到带有正则化和ReLU层的卷积来产生新的特征D,将D和S转置执行矩阵相乘;最后将得到的结果与A执行逐项素相加,得到最后的输出E 。

CAM作用
捕获任何两个通道映射之间的通道相关性,用所有的通道映射加权和更新每个通道映射。

CAM结构
在这里插入图片描述
从原始的特征A直接计算通道映射X;具体来说,将A和A的转置执行矩阵相乘操作;最后应用softmax层得到通道attention映射X;
除此之外,X的转置和A执行矩阵相乘;将得到的结果重新调整大小与A执行逐元素相加得到E。

实验

1 PAM和CAM验证实验
在这里插入图片描述
从图中可以得出结构都有PAM和CAM时,结果是最好的,在不同的基础网络中,相同条件下,Res101要比Res50效果好。

2 同base,不同的策略
在这里插入图片描述
注:DA表示数据增强;MG表示多个网格的方法;MS表示多尺寸的输入
从图中可以得到,当三个都有的时候,网络的IOU结果是最好的。

3 现有结构对比
在这里插入图片描述
图中可以得出,DANet的结果要比大部分的网络结构要好。

4 不同数据集的验证实验
VOC2012验证实验
在这里插入图片描述

VOC2012测试结果
在这里插入图片描述
Context测试集结果
在这里插入图片描述
COCO数据集结果
在这里插入图片描述

结论
1 本文主要解决的背景分割的问题;
2 提出新的attention结构;
3 PAM和CAM的作用是扩大背景信息,使得分割更为准确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值