【论文笔记】Hierarchical Paired Channel Fusion Network for Street Scene Change Detection

m0_61899108

已于 2023-04-07 20:57:16 修改

阅读量2.1k

点赞数 2

分类专栏：论文笔记文章标签：街景变化检测深度学习分层通道融合反向空间注意力多部分特征学习

于 2022-02-12 20:48:04 首次发布

本文链接：https://blog.csdn.net/m0_61899108/article/details/122830293

版权

论文笔记专栏收录该内容

147 篇文章

订阅专栏

论文

论文题目：Hierarchical Paired Channel Fusion Network for Street Scene Change Detection

收录：IEEE Transactions on Image Processing (TIP), 2021

论文地址：https://arxiv.org/abs/2010.09925

摘要

街景变化检测（Street Scene Change Detection，SSCD）是CV领域重要且具有挑战的任务。解决SSCD任务的直观方法是将提取的图像特征对进行融合，然后直接测量不同部分生成变化图。SSCD任务的关键使设计一种有效的特征融合方法，能够提高相应变化图的精度。

为此，本文提出一种新的分层配对通道融合网络（Hierarchical Paired Channel Fusion Network，HPCFNet），它利用配对特征通道的自适应融合。具体来说，该算法利用连体卷积神经网络（Siamese Convolutional Neural Network ，SCNN）联合提取给定图像对的特征，并通过多层特征层次上的通道融合，将其分层组合。基于观察到的场景变化分布是多样化的，进一步提出一种多部分特征学习（Multi-Part Feature Learning，MPFL）策略来检测不同的变化。基于MPFL策略，该框架实现了一种新的方法来适应场景变化区域的规模和位置多样性。在三个公开数据集（PCD、VL-CMU-CD、CDnet2014）取得显著效果。

引言

面临的问题

手工设计的特征存在固有缺陷：鲁棒性低，语义不充分。CNN具有较强的特征提取能力。
单层特征融合只融合部分信息，效果不好。
现有的多层特征融合大多采用简单的融合方式，直接拼接或求和。因为不同网络层次上存在语义差距，这种朴素的融合忽略了不同特征图间的语义关系。

解决方法

为解决上述问题，本文提出一种新的分层配对通道融合网络（Hierarchical Paired Channel Fusion Network，HPCFNet），它是一种更有效的多层特征融合框架。具体来说，对于每个特征层，都引入一个配对通道融合（Paired Channel Fusion，PCF）模块，使跨图像特征融合，能够充分捕捉通道变化。利用一个连体卷积神经网络（SCNN）联合提取成对的图像特征，然后以从粗到细进行分层组合。此外，还提出了一个反向空间注意（Reverse Spatial Attention，RSA）机制，以突出变化的区域，同时抑制不变的区域。

数据集中变化区域是多样化的，变化区域包含各种尺寸。基于对变化区域的空间分布和尺寸的不同，本文提出一种适应位置和尺度变化的多部分特征学习（Multi-Part Feature Learning，MPFL）策略。具体来说，MPFL策略由四个分支组成，它们具有不同的划分方法。四个分支利用自适应卷积层来捕获不同空间部分的判别特征。提出的框架在三个公开数据集（PCD，VL-CMU-CD，CDnet2014）取得显著效果，超过当时SOTA。

贡献

提出了一个新颖的框架，命名为HPCFNet，用于具有挑战性的SSCD任务。HPCFNet有效地利用密集融合架构进行多层次特征融合。此外，在融合的特征图中加入有效的RSA模块来突出变化的区域。
提出了一种新的MPFL策略来检测从整体到局部的变化区域。MPFL通过四种不同的分区方法解决了变化区域的空间分布和尺度差异问题。
在三个公共SSCD数据集上的综合实验表明，所提出的框架取得了卓越的性能，并在相当大的范围内超过了其他最先进的方法。

方法

整体架构

主要步骤：

首先，将不同时间（t0和t1）的成对图像输入带有VGG16主干的连体网络，提取多尺度深度特征。
然后，利用PCF模块对不同尺度的卷积层特征图进行集成，生成分层的通道融合特征图。
接着，通过RSA模块对融合后的特征图进行调整。插入MPFL策略，以从整体到局部的方式检测变化。
最后，通过结合分层融合的特征来预测变化图。

HPCFNet的具体配置信息：

Paired Channel Fusion（PCF）

融合特征图，最直接方法是按通道拼接。

本文发现，来自两特征图的相同通道层的特征，可以激活大部分变化区域。

在相同层级提取成对的通道有助于定位变化区域。

提出一种有效的通道融合方法，即配对通道融合（PCF）。

在第m层，首先通过交叉特征堆叠（Cross Feature Stack，CFS）将同一层的特征图（即 $F_{t0}^{m}$ 和 $F_{t1}^{m}$ ）结合起来，使通道交织，生成 $F_{s}^{m}$ 。

在空洞空间金字塔池化（Atrous Spatial Pyramid Pooling ，ASPP）模块驱动下，提出并行空洞分组卷积（Parallel Atrous Group Convolution，PAGC）模块，来融合成对通道和捕获多尺度特征表示。PAGC模块有4个独立的分组卷积，其内核大小为3*3。为简单起见，将每个分组卷积层的组号设置为c（即输入的 $F_{t0}^{m}$ 和 $F_{t1}^{m}$ 的通道号）。分组卷积的每一组包含两个通道：一个来自 $F_{t0}^{m}$ ，与之对应的通道来自 $F_{t1}^{m}$ 。此外，使用空洞卷积来扩大接收域。

将四组卷积的输出拼接起来，然后通过1*1卷积进行缩减避免过多的计算。

将PAGC的输出 $\bar{F}^{m}$ 与第(m+1)层处理后的特征图 $F^{m+1}$ 拼接起来，生成PCF模块的输出 $\tilde{F}^{m}$ 。

PCF计算公式：

Reverse Spatial Attention（RSA）

PCF模块生成的融合特征图可以对变化区域进行粗略定位，但区域细节较为缺乏。

为解决该问题，提出反向空间注意力（Reverse Spatial Attention，RSA）模块。

将 $\tilde{F}^{m}$ 、 $F_{t0}^{m}$ 和 $F_{t1}^{m}$ 输入RSA模块，生成加权融合的特征图。

连体网络以相同的方式提取两幅不同图像的特征，因此，成对图像中不变的区域会产生包含相同语义信息的特征图。同时，变化的区域会导致成对特征图中不同的激活。

在RSA中，首先执行逐元素乘法（ $F_{t0}^{m}$ 和 $F_{t1}^{m}$ ）来增强相同的信息。相乘后，每个对应的两个通道将保持变化的区域不被激活。因为区域的变化会导致相应通道中激活值的差异会很大。

从上图可以看出，channel 24和 channel 39，经过相乘后变化区域并没有被激活。其他通道类似。

沿着通道轴池化后，变化区域保持非激活状态。具体来说，沿着通道轴分别执行平均池化和最大池化，以捕获特征图的统计属性。将所得到的特征图先拼接再送入3*3卷积层，以生成空间注意力掩码（spatial attention mask） $M\in R^{h*w*1}$ 。因为这些相乘的特征强调了两个特征图的相同表示。生成的M能够高亮显示为变化区域。使用反掩码（reversed mask），使得变化区域高亮显示。先用sigmoid函数激活，再用1-M生成强调变化区域的掩码 $M_{R}$ 。

利用 $M_{R}$ 与 $\tilde{F}^{m}$ 进行相乘得到注意力特征 $\hat{F}^{m}$ ，即对 $\tilde{F}^{m}$ 进行重新加权（更加突出变化区域，弱化非变化区域）。

mask $M_{R}$ 与attention feature的计算公式：

Multi-Part Feature Learning（MPFL）

数据集中变化区域的位置和尺寸都是不平衡的。于是，提出MPFL策略，可以检测从全局到局部的变化。

观察到多样性大致分为4种情况，于是设计了4个相对应的分支。

首先对注意力特征 $\hat{F}^{m}$ 使用1*1卷积进行通道降维，得到 $\check{F}^{m}$ 。

然后，对特征进行划分：

（Branch1）将 $\check{F}^{m}$ 沿高度和宽度分成4个特征块，每个特征块大小为(h/2)*(w/2)*c。
（Branch2）将 $\check{F}^{m}$ 沿着宽度轴分成2个特征块，每个特征块大小为(h)*(w/2)*c。
（Branch3）将 $\check{F}^{m}$ 沿着高度轴分成2个特征块，每个特征块大小为(h/2)*(w)*c。
（Branch4）就是原始特征 $\check{F}^{m}$ ，特征块大小为h*w*c。

对于每个分支，设置特定的卷积核以适应不同尺寸的特征块，即在分支1设置1*1，分支2设置3*1，分支3设置1*3，分支4设置3*3。每个分支中，每个特征块的卷积是独立的。

MPFL可以通过适当的接收域自适应地学习全局和局部特征。

最后，将所有不同分支地特征图拼接起来。

四个分支利用不同的空间划分方法和自适应卷积层，从而可以捕获不同空间区域的区别特征。基于此，SSCD的性能得以显著提高。

Network Training

训练数据：图像对+ground truth

损失函数：加权交叉熵损失

使用SGD获取最优参数。

实验设置

数据集

3个公开数据集：PCD、VL-CMU-CD、CDnet2014

评价指标

F-Score

数据预处理

参数设置

实验结果

在PCD数据集上

可视化

在CL-CMU-CD数据集上

可视化

在CDnet2014数据集上

可视化

消融实验

3种特征融合方式

是否使用PCF模块性能比较。

交叉特征堆叠CFS模块的影响。

有无RSA模块的性能比较。

MPFL策略的影响。

PAGC的影响。

以通道方式融合特征，融合每个成对通道的信息，增强了每个融合通道变化的表达。
利用不同的膨胀率丰富了多尺度信息的表示。

结论

本文，提出了一个新的深度学习框架，命名为HPCFNet，用于SSCD任务。为了增强特征融合，引入了PCF模块，以通道方式分层融合特征映射。接下来，提出了一个RSA模块来自适应地突出显示表明改变区域的特征。为了丰富场景信息，还提出了一种MPFL策略，以全局-局部的方式提取特征。在三个公开可用的SSCD数据集(即PCD、VL-CMU-CD和CDnet2014)上的大量实验表明，与其他先进的方法相比，该方法取得了显著的性能。