论文笔记：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes

Philosss

已于 2023-12-06 19:51:13 修改

阅读量2.4k

点赞数 23

文章标签：论文阅读深度学习图像处理

于 2023-12-06 19:49:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013708520/article/details/134838340

版权

论文地址：MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals & Magazine | IEEE Xploreb

该论文没有公布源码

废话不多说，这篇文章就目前航天遥感所面对的挑战：场景和物体尺度的剧烈变化，提出了自己的模型。遥感图像变化剧烈主要是因为航拍角度、航拍设备等等引起的，比如你无人机不可能每次拍照片都是一个角度吧，一张照片里面可能包含很多的场景如公园、工业区、湖泊等等，物体尺度就更好理解了，一张图像里面小车子和大楼就属于物体尺度变化太大。

为啥提出这个模型呢，因为目前多尺度信息来训练神经网络是一个大热点，但是你前面多尺度了，后面总得融合吧，那么作者就通过人类感知这一块提出了MANet，模型里面提出了一种类间和类内区域细化（IIRR）方法来减少融合引起的特征冗余。 IIRR 利用具有类内和类间尺度变化的细化图来指导 MS 细粒度特征。不知道的读者不用担心，读到后面你就知道了

这张图里面，（a）是目前的融合方法，直接融合导致之间出现了混淆，就那个三角形状（b）则是作者提出的，IIRR框架能够将他们分开来，通过MCL就能做到很好的融合

这是网络的总框图，后续我会把模块截图出来单独讲

接下来讲一下论文的主要方法

一、MS Feature Extraction

这是特征提取模块

这里采用了传统的多尺度方法，中间是原始图像，上下为分别下采样一倍和上采样一倍的图片，公式在下面：

E、G分别是编码层encoder和解码曾deconder， $g_{i}$ 则是编码器的最后一层的特征图， $h_{i}$ 是解码输出，值得注意的是，这三个train网络不共享特征。编码器采用resnet34,解码器采用modified U-Net，对我来说就是传统的U-Net加了点调整

二、Inter-Class and Intra-Class Region Refinement

这是文章的重点之一，他利用逐区域语义分割来指导逐像素语义分割。大家是不是在想什么是逐区域？其实很简单，上面我提到 $g_{i}$ 是编码器的最后一层的特征图，那么这特征图是原始图像经过多层卷积等等网络编码后的，感受野是不是增大了，图像是不是变小了，那么每一个像素是不是代表的就是原始图像的一个区域（我是这么理解的）

左图绿线为逐区域，是不是指向区域为框框；蓝线为逐像素；右图则是类内和类间的例子

一般特征提取器只能感知特定范围，太大或太小的陆地物体会使网络产生模糊的特征。作者考虑到类内和类间的尺度变换，直接将类内细化和类间细化建模为DA模块（其实我也没有想到居然能这么做）

接下来我会将一下DA模块是一个什么东西，里面没有讲到关于类内和类间的东西，不知道这个东西的建议先看懂，后面我会解释两者是怎么扯上关系的

DA模块来自于一篇2019年发表于CVPR会议上的论文Dual Attention Network for Scene Segmentation，论文地址为：Dual Attention Network for Scene Segmentation (thecvf.com)

这是DA模块的主要框图，分为空间和提到注意力模块

空间注意力模块

A是原图，经过三个卷积后生成B、C、D，后续操作很简单这里我就不赘叙了

通道注意力模块

可以看到，通道注意力一个卷积都没有，过于简单我也就不赘叙了

我这里只是简单的介绍一下这个模块，想详细了解可以移步这篇文章：http://t.csdnimg.cn/4AVhq

其实通道注意力就相当于类间注意力，空间注意力就相当于类内注意力。我是这么理解的，语义分割最后不是几个类就输出几个通道吗，一个通道一个类，那么类间注意力不就是通道注意力吗。空间注意力也一样，一个通道里面只有你这一个类，那么类间注意力不就是空间注意力吗。

IIRR

这是原文的式子，第二个等式就是类内，第三个就是类间，第一个就是后面两个相加再点乘zs。

其中fR是重塑操作，表示元素乘法，zs是分支的密集logits特征。

这里的C(.)我放在第三部分讲，图中三个C其实是不同的三个分类器，后面会讲为什么不同

三、MS Collaborative Learning

这里作者定义了三个损失函数。我先讲Parameter Discrepancy Loss,也就是 $L_{pd}$ ,它能够强制约束三个分类器的参数不一样，以便根据协同训练策略提供不同的视图。

这个式子中， $\overrightarrow{a}_{s}$ 和 $\overrightarrow{a}_{s'}$ 分别是两个卷积滤波器的参数，这个loss就能够约束这两个参数不要一样，从而达到三个分类器参数不一样的效果。

后面的特征p是采取三个特征相加得到的，作者对为什么采用相加做出了解释

因为受损失反向传播的影响，限制了模型的多样性，但是后面的自适应损失（Adaptive Rectify Loss）能够做到像素级对不确定进行修正，因此直接相加是一个方便且可行的方法。

这两张图其实是在建模一个损失，那就是前面提到的自适应损失（Adaptive Rectify Loss） $L_{ar}$ ,eq6,7计算了两个特征图（也就是前面提到三个尺度生成的三个特征图 $p_{i}$ ）,计算距离度量 D来测量预测两者之间的像素差异。

O则是偏移量，这个则是通过KL散度来计算truth distribution（这里我理解为Ground Truth）和预测图像P的差值

最后O和D做一个点乘即可

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。