论文笔记:SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images

源码:https://github.com/likyoo/Siam-NestedUNet

摘要

现有变化检测方法侧重于深层变化语义特征的提取,而忽略了包含高分辨率、细粒度特征的浅层信息的重要性,这会导致变化目标边缘像素的不确定性和小目标的漏判。本文中提出的SNUNet-CD是一种用于变化检测的稠密连接孪生网络(孪生网络与NestedUNet的组合)。它通过编码器和解码器之间以及解码器和解码器之间的紧凑信息传输来减轻神经网络深层定位信息的丢失。此外,提出了Ensemble Channel Attention Module (ECAM) 用于深度监督,通过ECAM,可以提炼出不同语义层次最具代表性的特征并用于最终的分类。

引言(一些概念没有记录)

补充:

这里“变化”指的是人工设施的变化,如建筑物和汽车,季节性的变化被视为干扰因素。因此,许多传统的变化检测方法(如差分、CVA和PCA&K-means)可以在简单的场景中取得有效的结果,但在复杂场景下表现不佳。近年来,许多场景分割的神经网络模型已经应用于变化检测任务来提取更深层次的特征。首先,U-Net创建了基准模型,然后,孪生网络嵌入成为变化检测的标准模型。为了提升变化检测的性能,许多功夫用在深层特征的提取和细化上。论文[10]中使用金字塔模型提取多尺度特征,论文[9]和论文[12]中使用深层监督来增强浅层特征的表现力和识别能力,引入注意力机制来细化特征,获得更好的特征表示,例如论文[9]中的空间和通道注意力、论文[10]的自注意力、论文[11]的双层注意力等。

思路:

近些年,用于场景分割的神经网络的很多技术和组件被用于CD任务以提取更深层次的表示,虽然这些方法取得了实际的成功,但是有一个通病:连续的下采样导致确切空间位置信息的丢失,这往往会导致变化目标边缘像素的不确定性和小目标的漏判。

很多研究表明:

        1、神经网络的浅层包含细粒度的定位信息

        2、深层包含粗粒度的语义信息

通过编码器和解码器之间以及解码器和解码器之间的密集跳跃连接,可以保持高分辨率、细粒度的表示。

SNUNet-CD的主干网络有多组不同级别的输出,为了实现最终的低级特征和高级特征的自然聚合,并抑制深度监督的语义鸿沟,作者在深度监督中引入了通道注意力模块(CAM),并提出了集成通道注意力模块(ECAM),ECAM能够聚合和细化多个语义层次的特征,得到更好的结果。

贡献:

        1、提出了基于NestedUNet的稠密连接SNUNet-CD,减轻了神经网络深层中定位信息的丢失

        2、提出ECAM对多个语义层次的特征进行聚合和细化,在一定程度上抑制了语义鸿沟和定位误差

结论

SNUNet-CD通过编码器和解码器之间以及解码器和解码器之间的密集跳跃连接,可以保持高分辨率、细粒度的表示,并缓解变化目标边缘像素不确定性和小目标的漏判。

从结构上看,SNUNet-CD可以看作是孪生网络、NestedUNet和ECAM的结合。

与其他变化检测相比,它可以检测到更多的细节变化,能更好的平衡精度评价和FLOPS。

方法

A、网络体系结构

SNUNet-CD是一种标准的编码器-解码器架构,使用孪生网络作为编码器。将双时相影像分别输入到孪生网络的两个分支中,两个分支共享参数。这样,使用相同的卷积滤波器提取两幅图像的特征,并激活特征图中相同的位置。由于孪生网络单独提取双时相图像特征,采用concatenation的方式将两个孪生分支之间的的特征进行融合,确保信息的完整性。

为保持高分辨率特征和细粒度的定位信息,我们在编码器和解码器之间使用了密集跳跃连接机制

在图1图2下采样过程中,两个分支的特征被融合,融合后的高分辨率、细粒度特征通过跳跃连接连续传输到解码器,补偿了解码器深层“位置信息”的丢失。

“2× up-sampled output"表示对输入图像或特征图进行两倍上采样,即将其沿着水平和垂直方向分别放大两倍,从而得到尺寸是原始图像或特征图两倍的输出。这种上采样操作可以用于在图像处理或神经网络中恢复分辨率、增加细节等应用场景中。

“图像 1”和“图像 2”输入到连体编码器网络中,对于下采样后的每个节点的输出,都会有一个子解码器将其恢复到原始大小。编码器的精细定位特征通过跳跃连接传输到四个子解码器,这意味着浅层定位信息直接应用于深层,从而保持细粒度信息。

图 3.建议的体系结构的图示。(a)是SNUNet-CD的骨干,向下箭头和向上箭头分别表示下采样和上采样,虚线箭头表示传输细粒度特征的跳过连接(灰色表示编码器与子解码器之间的连接,红色表示子解码器与子解码器之间的连接);Xij表示卷积块,详细结构如(c)所示。(b)是我们的 ECAM。(d)是CBAM的常规CAM。

图4、SNUNet-CD 中通道数的变化。该部件在图3(a)中用蓝色虚线框表示。“3”表示3通道RGB图像,“n”表示特征图的初始通道数。

SNUNet-CD中特征图的通道数随着编码器的加深而逐渐增加,并随着解码器的加深而逐渐减少。图4显示了通道数的变化。

B、ECAM

SNUNet-CD的骨干最终有四个与原始图像大小相同的输出,即X0,j,j=1,2,3,4;的输出x0,j,j=1,2,3,4;虽然这四组特征图大小相同,但是他们具有不同的语义级别和空间位置表示。

具体来说,浅层子解码器的输出具有更细粒度的特征和更精确的定位,而深层子解码器的输出具有更粗粒度的特征和更丰富的语义。

在融合这些特征时,需要一种自动通道选择策略来抑制语义差距和定位差异。

ECAM的设计目的是在不同组之间自动选择和关注更有效的信息。

从结构上看,ECAM是CAM在深度监督和集成学习方面的自然扩展,首先,对主干中的四组输出进行求和,使用CAM提取组内关系。同时,将四组输出进行concatenate,按照另外一个CAM提取组间关系。ECAM可表述为:

最后进行1*1卷积运算得到2× H × W 的变化图:”2“表示有变化与无变化。

Concatenate 是指将两个或多个张量(Tensor)沿着指定的维度拼接在一起,生成一个新的张量的操作。 在神经网络中,常常需要将多个张量按照某种规则进行拼接,以得到更高维度的特征表示,或者将不同特征的张量进行融合。

 C、损失函数详情

在变化检测领域,不变像素的数量往往远多于变化像素的数量。为了减弱样本不平衡的影响,使用了混合损失函数(加权交叉熵损失和骰子损失的组合):

为描述加权交叉熵损失,将变化图视为点的集合,可表示为:

H and W denote the height and width of Y^ ,他们和原始图像的大小相同。

SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images | IEEE Journals & Magazine | IEEE Xploreicon-default.png?t=N7T8https://ieeexplore.ieee.org/abstract/document/9355573

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值