论文笔记:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes

论文地址:MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes | IEEE Journals & Magazine | IEEE Xploreb

该论文没有公布源码

废话不多说,这篇文章就目前航天遥感所面对的挑战:场景和物体尺度的剧烈变化,提出了自己的模型。遥感图像变化剧烈主要是因为航拍角度、航拍设备等等引起的,比如你无人机不可能每次拍照片都是一个角度吧,一张照片里面可能包含很多的场景如公园、工业区、湖泊等等,物体尺度就更好理解了,一张图像里面小车子和大楼就属于物体尺度变化太大。

为啥提出这个模型呢,因为目前多尺度信息来训练神经网络是一个大热点,但是你前面多尺度了,后面总得融合吧,那么作者就通过人类感知这一块提出了MANet,模型里面提出了一种类间和类内区域细化(IIRR)方法来减少融合引起的特征冗余。 IIRR 利用具有类内和类间尺度变化的细化图来指导 MS 细粒度特征。不知道的读者不用担心,读到后面你就知道了

这张图里面,(a)是目前的融合方法,直接融合导致之间出现了混淆,就那个三角形状(b)则是作者提出的,IIRR框架能够将他们分开来,通过MCL就能做到很好的融合
这是网络的总框图,后续我会把模块截图出来单独讲

接下来讲一下论文的主要方法

一、MS Feature Extraction

这是特征提取模块

这里采用了传统的多尺度方法,中间是原始图像,上下为分别下采样一倍和上采样一倍的图片,公式在下面:

E、G分别是编码层encoder和解码曾deconder,g_{i}则是编码器的最后一层的特征图,h_{i}是解码输出,值得注意的是,这三个train网络不共享特征。编码器采用resnet34,解码器采用modified U-Net,对我来说就是传统的U-Net加了点调整

二、Inter-Class and Intra-Class Region Refinement

这是文章的重点之一,他利用逐区域语义分割来指导逐像素语义分割。大家是不是在想什么是逐区域?其实很简单,上面我提到g_{i}是编码器的最后一层的特征图,那么这特征图是原始图像经过多层卷积等等网络编码后的,感受野是不是增大了,图像是不是变小了,那么每一个像素是不是代表的就是原始图像的一个区域(我是这么理解的)

左图绿线为逐区域,是不是指向区域为框框;蓝线为逐像素;右图则是类内和类间的例子

一般特征提取器只能感知特定范围,太大或太小的陆地物体会使网络产生模糊的特征。作者考虑到类内和类间的尺度变换,直接将类内细化和类间细化建模为DA模块(其实我也没有想到居然能这么做)

接下来我会将一下DA模块是一个什么东西,里面没有讲到关于类内和类间的东西,不知道这个东西的建议先看懂,后面我会解释两者是怎么扯上关系的

DA模块来自于一篇2019年发表于CVPR会议上的论文Dual Attention Network for Scene Segmentation,论文地址为:Dual Attention Network for Scene Segmentation (thecvf.com)

这是DA模块的主要框图,分为空间和提到注意力模块
空间注意力模块

A是原图,经过三个卷积后生成B、C、D,后续操作很简单这里我就不赘叙了

通道注意力模块

可以看到,通道注意力一个卷积都没有,过于简单我也就不赘叙了

我这里只是简单的介绍一下这个模块,想详细了解可以移步这篇文章:http://t.csdnimg.cn/4AVhq

其实通道注意力就相当于类间注意力,空间注意力就相当于类内注意力。我是这么理解的,语义分割最后不是几个类就输出几个通道吗,一个通道一个类,那么类间注意力不就是通道注意力吗。空间注意力也一样,一个通道里面只有你这一个类,那么类间注意力不就是空间注意力吗。

IIRR

这是原文的式子,第二个等式就是类内,第三个就是类间,第一个就是后面两个相加再点乘zs。

其中fR是重塑操作,表示元素乘法,zs是分支的密集logits特征。

这里的C(.)我放在第三部分讲,图中三个C其实是不同的三个分类器,后面会讲为什么不同

三、MS Collaborative Learning

这里作者定义了三个损失函数。我先讲Parameter Discrepancy Loss,也就是L_{pd},它能够强制约束三个分类器的参数不一样,以便根据协同训练策略提供不同的视图。

这个式子中,\overrightarrow{a}_{s}\overrightarrow{a}_{s'}分别是两个卷积滤波器的参数,这个loss就能够约束这两个参数不要一样,从而达到三个分类器参数不一样的效果。

后面的特征p是采取三个特征相加得到的,作者对为什么采用相加做出了解释

因为受损失反向传播的影响,限制了模型的多样性,但是后面的自适应损失(Adaptive Rectify Loss)能够做到像素级对不确定进行修正,因此直接相加是一个方便且可行的方法。

这两张图其实是在建模一个损失,那就是前面提到的自适应损失(Adaptive Rectify Loss)L_{ar},eq6,7计算了两个特征图(也就是前面提到三个尺度生成的三个特征图p_{i}),计算距离度量 D来测量预测两者之间的像素差异。

O则是偏移量,这个则是通过KL散度来计算truth distribution(这里我理解为Ground Truth)和预测图像P的差值

最后O和D做一个点乘即可

  • 21
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值