A deep learning framework for matching of SAR and optical imagery

想要更好的理解这篇文章,可以先看看D2-Net: A Trainable CNN for Joint Description and Detection of Local Features  跟这篇文章很多地方很像。

论文链接:https://arxiv.org/pdf/1905.03561.pdf
代码链接:https://github.com/mihaidusmanu/d2-net

本文链接:https://doi.org/10.1016/j.isprsjprs.2020.09.012

代码链接:https://github.com/system123/SOMatch.

摘要

SAR和光学图像提供了关于观测场景的高度互补的信息。因此,在许多数据融合场景中,联合使用这两种模式是可取的。然而,任何数据融合任务都需要测量必须精确对齐。虽然对于这两种数据源,图像通常以地理反射的方式提供,但由于角测量误差的传播,光学图像的地理定位往往是不准确的。SAR和光学图像都存在许多同源图像区域匹配的方法,然而,由于两种模式之间存在显著的几何和辐射差异,这些方法不适合用于SAR-光学图像匹配。在本文中,我们提出了一个SAR稀疏图像和光学图像匹配框架,其中每一步都由深度神经网络编码。我们首先预测每幅图像中被认为最适合匹配的区域。然后通过一个多尺度的、特征空间互相关算子生成一个对应的热图。最后,通过将对应曲面分类为正匹配或负匹配来消除异常值。实验表明,该方法比以往的SAR-光学图像匹配方法提供了实质性的改进,甚至可以用于注册大规模场景。这打开了联合使用两种类型数据的可能性,例如改善光学卫星图像的地理定位或多传感器立体测量。

1.introducation

  天载遥感最常用的两种模式是合成孔径雷达(SAR)和光学图像,因为它们提供的关于观测场景的信息是高度互补的。因此,SAR-光学数据融合已成为遥感领域的一个相关研究领域(Schmitt等人,2017)。

  与任何数据融合任务一样,一个基本的第一步是对齐各种数据源。在基于图像的数据融合的情况下,这种对齐通常是通过图像匹配的过程来进行的。更具体地说,这涉及到确定具有不同的视点、分辨率并且可能由不同的图像的传感器获得。

  在经典的计算机视觉中,问题通常局限于单一的模态或传感器,图像匹配的任务在很大程度上被认为是在可用程度上解决的。然而,当处理高度异构的数据集和多种模式,如在SAR-光学图像匹配的情况下,情况并不如此。尽管遥感图像通常包含每个像素的地理坐标,由于光学图像经常包含显著的地理定位误差而提供精确通信,我们不能依赖该地理位置编码(Merkle等人,2017;Muller等人,2012)。因此,我们需要依赖于图像匹配过程,该过程受到与合成孔径雷达和光学模式之间的大几何和辐射差异相关的许多复杂性的影响(施密特等人,2017;休斯等人,2019)。例如,SAR图像中的几何畸变,如叠加、缩短和雷达阴影,在光学领域没有直接的类似物。另一方面,光学图像则具有与云、物体阴影和全局场景照明相关的照明效果。

  为了应对这些挑战,研究人员从经典计算机视觉中获得了灵感,并开发了许多搜救光匹配的方法。Suri and Reinartz (2010)使用相互信息创建了一种基于直方图的配准SAR和光学图像的方法。后来开发了许多手工制作的方法,旨在提高尺度不变特征变换(SIFT)检测和描述算法(Lowe, 2004),通过调整梯度算符和比例空间以更适应SAR图像的特性(Dellinger et al., 2015; Gong et al., 2014; Suri et al., 2010).这些方法在匹配SAR领域的图像方面相对成功,然而,它们未能匹配不同的模态,因为检测到的和描述的特征与在光学领域检测到的特征无关。

  这部分原因是由于合成孔径雷达和光学图像之间存在巨大的辐射差异。为了解决这个问题,(Ye and Shen, 2016)提出了histogram of oriented phase congruency(HOPC)定向相位一致性直方图描述符的直方图,其中相位一致性被用作为梯度信息的代替。这确保了这两种模式下的特征和描述符之间的共同性。Xiang et al. (2018)主张使用具有Harris scale-space的模式特异性梯度算子来更好地处理大的辐射测量差异,同时仍然允许跨模式检测到可重复的特征。(Li et al. (2020) 结合了之前的方法和相位同余的使用,创造了Radiation-variation Insensitive Feature Transform辐射变化不敏感特征变换(RIFT),它被证明对旋转和辐射差异不那么敏感,同时仍然提供可重复的特征。

  虽然基于特征的方法能够找到SAR和光学模式之间的对应关系,但它们的成功仅限于服从特定几何和辐射约束的图像。由于基于特征的方法依赖于一小部分区域的支持,因此它们无法处理特征的几何结构上的很大差异。此外,模式之间的辐射测量差异导致了对特征的不同描述,从而进一步降低了匹配性能。因此,基于特征的方法更适合匹配平坦、半城市和农村环境,局部特征外观差异较大,辐射特性相关性较强(Li et al., 2020; Xiang et al., 2018; Ye and Shen, 2016)。

  在更高的层次上,几何差异和辐射差异的约束是特征检测器和描述符的手工制作性质的结果,因此也存在于单域匹配问题中。例如,在经典的计算机视觉中,许多手工制作的方法在大基线或强烈的辐射差异下失效。因此,随着现代深度学习技术的出现,深度匹配开始蓬勃发展,以直接从数据中解决图像匹配问题(Kuppala等人,2020年)。

  Fischer et al. (2014)证明了从Image神经网络的最后一层提取的在ImageNet上预先训练的特征,在图像匹配任务中优于SIFT描述符。这导致了几个基于CNN的描述符的发展,它们直接从相应的图像补丁对中学习相似度指标。Simo-Serra等人。(2015)提出使用用对应和非对应补丁对训练的孪生网络和欧几里得距离度量来学习图像匹配的128维描述符。在Zagoruyko and Komodakis (2015)中也提出了类似的方法,然而,增加了一个额外的网络来聚焦于图像补丁对的中心的匹配。在这些方法的基础上, Han et al. (2015)提出的匹配网络,利用三重损失和hard negative mining,更好地区分相应和非对应的patch对。 Balntas et al. (2016a,?),提出了一种基于三重的方法,使用简单的浅网络,在不牺牲精度的情况下显著提高计算和训练性能。采取了一种不同的方法,Yi et al. 2016)提出了一种学习到的SIFT变体,其中SIFT匹配管道的每个组件都被实现为一个独立的CNN,使用SIFT作为地面真相进行训练。最近,Dusmanu et al. (2019)提出了一种替代公式,共同解决了使用单一网络输出特征似然和联合描述符的像素映射的特征检测和描述问题。Revaud et al. (2019)提出了一个联合学习特征检测和描述的单一网络,以及局部特征识别能力的度量,用于识别要匹配的可重复特征。

  在这些成功的方法的推动下,遥感从业者转向深度学习来解决人工制作的合成孔径雷达和光学图像匹配方法的各种不足((Hughes et al., 2019)为此目的,已经开发了一些方法,它们特别解释了图像的多模态和固有的异质性质。利用(伪)孪生网络进行的深SAR-光学匹配的第一个著名例子:Merkle et al. (2017)提出了一个孪生网络来直接预测一个更大的SAR搜索补丁和一个较小的光学模板补丁之间的相对位移。同样地,Mou et al. (2017)将匹配框架变为为一个二元分类问题,并训练了一个模拟孪生网络来预测SAR和光学patch之间中心像素的对应关系。从这些最初的工作中获得灵感,我们扩展了Mou et al. (2017)提出的伪孪生网络使其包括一个更稳健的融合网络,并修改二元分类问题,输出一个基于softmax激活的相似性指数(Hughes et al., 2018)。 Citak and Bilgin (2019)提出了在孪生匹配网络的特征提取臂中使用SAR和光学视觉显著性图作为一种注意机制。Wang et al. (2018)使用自学习的深度神经网络直接学习源图像和参考图像之间的映射,目的是应用该映射遥感图像配准。Bürgmann et al. (2019) 对HardNet(Mishchuk et al., 2017)提出了修改并将其应用于光学图像中匹配SAR地面控制点(GCPs)。Hoffmann et al. (2019)训练了一个完全卷积网络(FCN)来学习一个相似度量,它对SAR和光贴片对之间的小仿射变换是不变的。Ma et al.(2019)提出了一种基于微调VGG16模型(Simonyan and Zisserman, 2015).提取特征的两步粗到细配准方法。

  虽然我们在SAR和光学图像的匹配方面取得了显著的进展,但这些方法依赖于选择良好的特征点来提取可匹配的候选搜索和模板补丁。考虑到合成孔径雷达和光学图像之间的很大差异,通常在这两个领域都看不到显著的特征。因此,之前作品中候选补丁的选择很大程度上依赖于从单一模式中提取的特征(Bürgmann et al., 2019; Merkle et al., 2017; Hughes and Schmitt, 2019) 或基于地理定位的假设相关性(Citak and Bilgin, 2019; Hoffmann et al., 2019; Ma et al., 2019).。例如,在Merkle et al. (2017)从开放街道地图(OSM)数据中提取的道路交叉口的位置被用作提取候选区域进行匹配的特征。虽然这显示了合理的结果,但OSM数据具有不同的准确性,且全球不一致(Vargas-Muñoz et al., 2019)。此外,该方法还需要大量的预处理和人工干预。Bürgmann et al. (2019)利用大地立体测量SAR方法衍生出的GCPs作为从SAR图像中提取模板patch的特征。这些GCP的生成在计算上很复杂,需要对具有特定采集几何图形的同一场景进行多个SAR采集。此外,这些GCPs并不是一般的特征,而且通常也不存在于农村地区。

  即使在最好的情况下,所提议的候选补丁满足增加匹配可能性的所有要求,异常值和不正确的匹配仍然存在。这是由于极端异质性下匹配任务的复杂性。识别和消除经典计算机视觉中的异常值的任务通常落在统计方法上,如随机抽样一致性(RANSAC)算法。然而,由于对存在大几何差异的域间特征转移进行建模的复杂程度,这些方法在SAR-光学匹配中并没有得到应用。因此,在SAR-光学匹配方法中去除异常值在很大程度上依赖于基于的滤波匹配。然而,这些方法没有看到在sar光学匹配中使用,因为在存在大的几何变换的不同模态中建模非常复杂。因此,sar光学匹配方法中异常值的去除在很大程度上基本依赖于基于相似度评分的滤波匹配。因此,前面提到的许多方法都有很高的假阳性率,这降低了下游任务性能。(用patch匹配的方法RANSAC不能有效地去除异常值,还得靠相似度

  在本文中,我们提出了一个全自动的,多尺度的SAR-光学匹配框架,以解决以前的方法的一些不足和约束条件。该框架由三个按顺序使用的神经网络组成:首先是一个Goodness network偏好性?)的网络,由特定领域的子网络组成。(This first network highlights regions with a high likelihood of containing salient features which are matchable across modalities. Second is a multi-scale matching network, architected around a feature space correlation function, which produces correspondence heatmaps for the matching of candidate patches. Finally, an outlier reduction network is used to directly estimate the quality of the matching result and allow for the removal of incorrect matching results)这第一个网络突出了很有可能包含跨模式匹配的显著特征的区域。第二是一个多尺度匹配网络,围绕特征空间相关函数构建,它生成候选补丁匹配的对应热图。最后,使用一个离群值减少网络来直接估计匹配结果的质量,并允许删除不正确的匹配结果。(文章主要结构我们评估了在高分辨率的SAR和光学图像数据集上完整的SAR-光学匹配管道的有效性。

2. Multi-modal feature proposal and matching framework

在本节中,我们详细介绍了构成所提出的端到端SAR-光学匹配框架的三个组件的体系结构和设计。图1中概述了这些主要组件的框架和定义。

2.1. Goodness network

   我们的框架的第一阶段的目的是提取被对应网络用于匹配SAR和光学图像的候选补丁。为了提取这些补丁,我们评估了匹配区域的优度(Goodness),即可进行匹配的区域的适合性。这个评估是使用两个相同但独立的(即。架构是相同的,但权重不是共享的)特定领域的CNN,每个结构都生成一个map,表明一个区域可匹配的可能性。 每个网络都在单模态上训练,但由相关(correspondence)网络产生的匹配损失进行监督(详见第3.2节) ,我们期望特定领域的CNNs了解在其他模态中可以看到哪些特征。然后将这两个map融合成一个交叉模态场景goodness map。
  这些特定领域的网络基于VGG11体系结构。选择该baseline是因为其简单、参数数量相对较低以及在各种任务中的性能)。主干架构由两个3×3卷积层的四个块组成,每个卷积层是一个卷积序列,由整正的线性单元(ReLU)激活和批归一化(BN)激活。前三个卷积块使用最大池化来下采样2倍。网络的头由两个卷积层组成,有2步(因此对张量的空间维数向下采样的因子为2)然后是使用1×1卷积块实现的完全连接的层。因此,根据 Merkle et al. ( 2017) 的报告,创建了一个在高分辨率SAR和光学图像之间的网络,略大于最大预期偏移。最后,具有核大小为N𝑝 和步长为Nk 的平均池层确保了一个可接受最大预期偏移量以及所需模板补丁的大小的区域。因此,Goodness network可以识别具有32N𝑝×32N𝑝( 前面的网络已经使图像大小缩小了32倍,还要进行窗口为N𝑝的池化,所以最终会有32N𝑝×32N𝑝个初始像素块大小的区域变为一个像素 像素大小的高优度区域,其中在SAR和光学模式之间存在最大32N𝑝像素的偏移。图2中描述了特定模态的网络架构的概

  使用互相配准的的SAR和光学patch,如𝐈𝑠,𝐈𝑜,和一个共享的来自图像对的匹配结果二进制标签𝑦𝑚,来独立训练训练SAR和光学域的特定的goodness network,如第3.2节所述。在训练过程中,针对特定领域的优度网络只在各自模式的补丁上进行训练,而二进制标签提供了输入补丁匹配时匹配效果的优略。二进制交叉熵(BCE)损失函数用于监督学习过程:

其中𝑦𝑚𝑖是二进制标签,表示是否可以匹配,\widetilde{}𝑦𝑚𝑖是特定域善良网络的Sigmoid激活输出,𝑁是样本总数。

  为了识别高优度的共同区域,必须融合特定域的优度网络的输出。这是通过结合训练过的领域特定的优度网络与一个简单的融合阶段来实现的,以形成最终的优度网络体系结构(图2).融合阶段负责结合两个特定领域的优图映射,创建跨模态场景优图图𝐆,并归结为像素合并算符。合并算子可以是任何像素算子,然而,本文研究了表示特定域优度映射的交点和并集的连续域代理的最小算子和最大算子(两幅图像每个像素取最小值和最大值。这种融合之后是如Dusmanu et al. (2019)提出的那样,非局部最大抑制(NMS)操作:

  其中,𝐺𝑖𝑗是像素(𝑖,𝑗)处的像素值G,而N𝑖𝑗是以(i,j)为中心的像素邻域。NMS操作使用不重叠的3×3像素邻域执行。这个邻域大小是基于一个3×3像素的邻域是最小的邻域,它允许抑制冗余点(导致模板高度重叠的点),同时保持已识别的高优度点的总数。特定领域和跨模态场景优度图的例子如图三所示:

通过选择交叉模态场景优度图中所有超过0.5阈值的像素来识别高优度点。然后,通过撤消池化和步幅操作,将高优度点的像素坐标转换为在原始图像空间中的像素坐标,这样:

其中𝐜𝑖’𝑗‘是原始图像中的点的位置,𝐩𝑖𝑗是联合场景优度图中的点位置,(N𝑝Nk)是优度网络的池化和步幅参数。最后,将这些转换后的点位置分别作为从SAR和光学图像中提取候选搜索和模板补丁的中心点。 (返回到原图像的点的位置作为后面模板和搜索patch的中心点)

2.2. Correspondence network

Goodness network告知了这两幅图像有可能成为匹配关键点的区域,但只有在粗分辨率下才能做到。下一步是在两者之间找到一个细粒度匹配的关键点。为此,第二个网络,即correspondence network,将一个小的光学图像patch(大小为N𝑡 × N𝑡的模板补丁𝐈𝑡)在更大的SAR图像(搜索patch 𝐈𝑠,N𝑠×N𝑠)上滑动以搜索匹配对。换句话说,correspondence network旨在确定搜索区域内模板补丁的中心像素的最有可能的对应点。选择SAR图像做搜索补丁有两个原因:首先,许多区域表现出低纹理,这导致在比较这些区域上的模板补丁时产生一致的响应。其次,SAR图像的地理参考度明显比光学图像更好,这意味着所识别的对应关系与光学模板的正确地理定位直接相关。使用候选补丁对的匹配过程的示例,输出对应映射如图4所示。

  现有的SAR-光学匹配方法很大程度上依赖于从深度神经网络的最后一层中提取的特征。虽然这些特征包含全局语义信息,但它们分辨率低,对变换(translation)等干扰不变。因此,可以认为,它们缺乏精确确定图像之间的对应关系所需的详细特征。因此,我们围绕卷积超列(Hariharan et al., 2015)的概念构建了correspondence network,这些网络是通过从浅CNN的多层提取的特征图叠加构建的。因此,这些超列可以被解释为一个多尺度的特征金字塔,它包含这两个feature primitives(即。线条,斑点,拐角),以及高水平的上下文信息。

  对应网络由两个相同但独立(不共享参数)的四层CNNs组成,每个模态用一个,从中提取特征映射以形成特定模态的超列。在使用特征空间相关算符进行匹配之前,减少每个模态中的信道的数量。

 超列是通过四层特征提取网络所提取的feature map构成的。然后这些特征映射被上采样,使用双线性插值并堆叠成一个超列。然后,使用一系列1 × 1的卷积层,将深度减少到所需的特征数量Nd。为了提高每个模态中显著特征的响应,Woo et al. (2018)提出了一个空间注意图,并将其应用于每个超列。然后将超列沿通道维度使用𝐿2规范化归一化。

  然后,使用相关操作在特征空间中匹配搜索和模板超列。由于从较大的图像中提取搜索区域,并且设计知道搜索对应的区域,因此使用有效填充应用相关操作。这指的是只在搜索补丁的内部区域上计算相关性,以避免需要额外的填充来处理边缘情况。最后,对结果进行上采样并进行填充,以匹配搜索窗口的范围。其输出是包含搜索窗口中模板窗口的每个偏移量的匹配分数的热图。对应网络的完整体系结构,以及输入和输出数据,如图5.所示。

  我们可以使用2D Kronecker delta function (定义一个单位脉冲函数作为ground truth来训练网络,其中单位脉冲的位置被参数化为搜索补丁中模板补丁的真实对应点。然后通过修正的均方误差(MSE)损失通过反向传播来训练网络:

  其中,𝐲𝑖和\widetilde{yi}表示𝑖th样本的目标标签和预测热图。函数𝑓𝑠𝑠是一个空间softmax操作,应用于预测热图,将匹配分数转换为对应点峰值的概率分布。softmax激活涉及heatmap中的所有点,因此,为了获得一个强峰,它鼓励抑制在其他地区的匹配分数。由于ground truth只包含一个非零值(就是上面那个Kronecker delta function,对其的地方为一,其他地方为零)我们使用加权向量𝐰𝑖(在标签为一处,𝐰𝑖最大,为N0/N1,其他标签为零的地方,𝐰𝑖为1)以确保峰值损失与热图中所有非对应点造成的损失有相同的重要性。这进一步夸大了热图中对强峰的要求。因此,N1和N0表示𝐲𝑖中零像素和非零像素数的计数。

  由于空间softmax操作𝑓𝑠𝑠规范化了∑𝑥,𝑦 \widetilde{y}=1,以及优先考虑峰值的损失函数,网络倾向于优先考虑峰值,网络会过拟合训练数据集。它通过利用预激活热图\widetilde{yi}的峰峰范围来实现这一点。为了减少过拟合,鼓励稀疏性和限制\widetilde{y}的动态范围,我们用𝐿1正则化项规范了我们的L𝑚𝑠𝑒损失。因此,整体损失函数可以表示为:

其中,𝜆是一个调整正则化强度的超参数。

2.3. Outlier reduction network

  由于应用于对应热图的空间softmax操作的性质,\widetilde{y}很可能总是包含一小簇像素,并表现出强烈的响应。然而,这些像素的大小和位置不足以识别匹配结果的质量。因此,我们假设确定匹配质量的更好方法是分析预热图\widetilde{y}的拓扑结构。我们将这一假设基于以下观察,即良好的匹配往往表现出一个狭窄的峰值,而错误的匹配通常是多模态的,或有广泛的分布。各种对应热图的例子如图6.所示。

   为此,我们在\widetilde{y}上训练一个Outlier Reduction Network(ORN)来分类好匹配和坏匹配。ORN的总体目标是减少correspondence network的不准确匹配的总数,因为在图像共配准或立体摄影测量时,低假阳性率比大量的匹配数更重要。

  ORN基于与the correspondence feature extraction network相同的架构,并进行了一些较小的修改。由于由对应网络产生的热图没有被归一化,并且具有一个可变的动态范围,因此不能假设它们是从同一分布中绘制出来的。因此,我们调整输入层以使instance normalization(IN),而不是BN,因为它独立地在每个样本上操作。我们将确定异常值的问题定义为二元分类,因此我们需要调整网络的头,以适应这一任务。此修改包括添加自适应平均池层(AdaptAvgPool),汇集整个空间范围以输出单个值。二进制交叉熵(BCE)损失函数用于监督学习过程:

其中,𝑦𝑚𝑖是一个二进制标签,指示是否可以匹配𝑖th补丁对, \widetilde{yoi}是ORN的Sigmoid激活输出,𝑁是样本总数。

   然后使用地面真实标签来监督训练,这些标签是基于通信网络报告的匹配结果的准确性推导出的,这个过程在第3.3节中有详细的描述。这个问题可以总结为:给定一个对应的热图\widetilde{y},它是否更有可能表示一个成功的或不成功的匹配。完整的架构的描述见图7。

3. Datasets and workflow

  而该框架的逻辑结构从通过对应网络(correspondence network)的优度网络(goodness network)遵循到离群值还原网络(ORN),如图1所示。但这种情况下是不能训练的。训练goodness network和离群值减少网络(ORN)依赖于训练correspondence network,我们首先描述对应网络的数据集然后描述从对应网络输出,用于训练善良和离群值减少网络的数据集。我们进一步提供了对假设的见解,并概述了选择训练、验证和测试样本的方式。

3.1. SAR and optical correspondence

  为了训练对应网络,我们需要一个大的显著候选搜索和具有已知对应点的模板patch的数据集。由于创建这样一个数据集的复杂性,以及难以手动标注不同的对应模态的对应点,我们依赖简化假设(如互相配准图像中地面点的对应)和城市地图集数据集(Schneider et al., 2010)来生成我们的训练、验证数据和测试数据。

  城市地图集数据集由在23个欧洲城市中获得的手动配准、高分辨率合成孔径雷达和光学图像组成。这些图像涵盖了乡村、工业、郊区和城市环境,总覆盖面积约为2万平方公里。光学图像采用全色遥感仪(PRISM)传感器获取,空间分辨率为2.5m,而SAR图像基于增强椭球体修正(EEC)TerraSAR-X数据产品,平方像素间距为1.25m。在城市地图集项目,使用数百个人工选择的对应点精确互配准每个图相对。根据此手动配准,(Merkle et al., 2017)汇报了残余互配准误差在3至5m范围内。

  为了降低匹配问题的复杂性,以及允许在训练期间增加批量处理大小,我们使用双线性插值将TerraSARX图像下采样到2.5m像素间距。这23个城市被分成三组进行训练、验证和测试。在三个数据集之间划分城市的过程被表述为每个场景图像总区域的离散优化问题。在这个公式中,目标是将城市分配给三个数据集,以便最终数据集显示出训练数量和测试样本之间大约80/20的分割。城市的最终分配和城市的空间分布如图8.所示。

 数据集的制作:

然后,我们将Harris角检测器应用于光学图像,以选择在至少一种模态中突出的点。利用这些点,以及城市地图集数据集中的SAR和光学数据准确精确配准的数据信息,我们使用每个像素的地理坐标信息从SAR图像中选择相应的点。然后,我们使用开放街道地图数据和非最大抑制来减少整体点集,以包含更有可能在地面水平的点,如靠近道路,远离建筑和森林区域。这一步骤在互相配准数据的情况下执行,在同一地理位置的假设对应点只适用于离地面没有高度的点(尽量将点都选在平坦区域)

   然后,我们从SAR和光学图像中切割了256个×256个像素的补丁,以已识别的对应点为中心。然后在训练过程中,我们从光学补丁中随机裁剪一个128×128模板补丁,其中心最大偏移为32像素(占最大偏移((Merkle et al., 2017))。在此过程中,我们确保correspondence network在实际条件下学习将模板图像与搜索窗口相匹配,同时允许生成ground truth数据,以进行训练过程的监督和评估。候选补丁对和相应的地面真相标签如图9所示。

  选择了光学模板补丁的128×128像素范围,使其捕获足够的空间上下文,以便在假设的最坏情况下实现匹配,同时保持足够小,以允许更好的选择性和更好的粒度匹配。然后选择SAR搜索补丁的范围,允许最大匹配偏移可达32像素(Merkle等人,2017),同时确保即使在极端情况下也有足够的空间上下文进行匹配。

  然后,我们标准化了SAR图像的动态范围,并将散斑转换为一个近似的加性高斯噪声模型。这是通过将像素值转换为分贝(dB),然后将其范围剪辑到训练图像的3𝜎范围,大约[10,30]dB,最后缩放合成图像,使𝐼𝑆𝐴𝑅∈[0,1]。对于光学图像,我们可以简单地通过除以255,将这些值标准化到𝐼𝑜𝑝𝑡∈[0,1]的范围内。

  虽然测试场景的处理方式与训练和验证场景相同,但候选补丁只对correspondence network的评估有用。因此,为了以端到端方式评估整个管道,我们还创建了更大的测试评估场景。训练集、测试集和验证集补丁从空间上不同的区域提取,最大补丁重叠为50%,而8个更大的测试场景从每个测试城市创建,因此在空间上不同,不包含重叠。最终的数据集包括40,314个训练候选补丁对,4,205对验证对和6,353对测试对,以及8个较大的测试场景。

3.2. Goodness

由于没有goodness数据集的存在,而且这样一个数据集的创建对于手工标注并不明显,我们依靠训练过的correspongence network来识别哪些可以作为正和负样本的patch来训练和评估goodness network。

  为此,我们利用了对应数据集中的SAR和光学patch,以及记录的匹配损失(从哪儿来的?L𝑚𝑠𝑒和每个样本Le的𝐿2对应点误差。然后,我们通过阈值化−log(L𝑚𝑠𝑒)和𝐿2错误,为每个样本创建二进制优度标签。负对数损失用于反转损失和减少动态范围,这使得阈值的选择任务更容易。我们给补丁对贴上标签,

  其中,𝑦𝑚𝑖是𝑖th补丁对的标签,标签𝑦𝑚𝑖=1表示适合匹配的补丁程序对,而0表示导致不准确或不成功匹配的patch对。阈值是根据训练数据集选择的,以便我们避免可能存在的模糊样本,这个过程如图10.所示。负对数损失允许更容易地选择产生具有理想属性的对应热图(低匹配损失)的patch,例如,只有一个峰值,分布范围很窄,其他地方的值也很小,而𝐿2阈值确保这些热图对应的是正匹配。

  由于对应数据集的创建没有保证相互可见的特征,因此最终优度数据集存在很大的不平衡,存在更多的负面例子。为了纠正这一点,我们通过随机选择减少了负样本的数量,以等于正样本的数量。

  创建良好数据集的最后一步是裁剪SAR搜索补丁到与相应的光学模板补丁相同的大小。这样做是因为优度分数只从最大对应点得到,因此超出模板补丁范围的区域不会影响补丁是否适合匹配。

3.3. Outlier reduction

  为了训练离群值去除网络,我们利用了由对应网络生成的热图的有效区域。这些热图被用作离群值减少网络的输入,二进制训练标签表示它们是成功匹配结果还是失败匹配结果的结果。

  热图标签的生成遵循与前面描述的良好数据集相同的标记方法。然而,我们只应用𝐿2阈值,因为标签仅依赖于补丁是否准确匹配。训练数据集中的一些有标记的例子如图11.所示。

4. Implementation details

  由于第3节中讨论的数据需求,我们首先训练对应网络,然后使用该训练的结果来生成训练优度和离群值减少网络所需的数据

  goodness network的平均池化参数设置为N𝑝=4和N𝑘=1。这相当于创建一个128×128像素的接受场,这足以解释模态之间高达160m的配准误差误差,同时在评估区域之间表现出75%的重叠。此外,correspondense network的超列的深度N𝑑被设置为256个。同样地,在对应网络的损失函数中指定的正则化权值𝜆被设置为1×10−5

我们利用PyTorch深度学习框架(Paszke等人,2019年)来实现我们提出的管道的所有方面。利用He等人提出的方法对各种子网络进行了随机初始化。(2015年),并使用Adam solver进行训练(Kingma and Ba, 2014)。用于求解器的超参数详见表1。对于每个子网络,使用Smith (2017).Cyclical Learning Rates(CLR)提出的搜索方法确定了最佳学习率。

我们使用了16个样本的固定批次大小,这构成了在NvidiaGTX1080TiGPU上训练通信网络的最大批量大小。这种批处理规模进一步允许优度网络和离群值减少网络在同一个GPU上同时进行训练。对应网络被训练了50个epoch,而其余的子网络被训练了1000个epoch,因为数据集大小相对于对应数据集大小则相对较小。

  数据增强被用于提高泛化性,降低过拟合的风险。由于数据集大小的减少,在训练优度和离群值减少网络时,这一步变得越来越重要。数据增强管道包括水平(HF)和垂直翻转(VF)、图像缩放(IS)±0.1倍,强度比例(CS)(0.7、1.3)和coarse image dropout (CD)(1%、5%),该图像下采样到原始尺(80%,98%)。如表2所述,在具有一定概率的训练期间,应用这些增强。

5. Experiments and results

 在本节中,我们首先通过进行消融实验来帮助我们选择架构。我们进一步评估了单个子网络与现有方法相比的性能,以及它们对最终对应集的准确性的影响。最后,我们评估了匹配框架在一个更大的测试场景上的整体性能。

5.1. Ablation study

为了帮助设计第2.2节中所述的correspondense network,我们进行了消融研究,以比较了添加各种体系结构和正则化元素时网络的性能。我们测试了通信网络的四种变体,详见表3。

  网络按照前面描述的那样进行训练,训练过程中的随机元素是确定的,使得所有网络都在相同的数据和增强上进行训练。最后,我们使用验证数据集评估了各种网络的性能,以防止我们的架构选择偏差到测试数据。

  我们从匹配的正确性和精度方面来评估性能。因此,匹配正确率(accuracy)由与对应的最多一个像素的地面真点有𝐿2距离的匹配的百分比以及平均𝐿2误差来定义。匹配精度(princision)定义为平均平均精度mean average precision(mAP),其中标准偏差用作精度的度量。消融研究的结果见表4。

从表4中可以看出,添加spatial softmax运算符会在匹配精度方面得到显著的提高,然而,这也会导致精度的降低。加入𝐿1正则化项进一步提高了匹配精度,同时只略微降低了基线网络的精度。因此,我们选择了CorrASL网络作为我们的SAR-光学匹配框架的首选体系结构,并参照此结果进行了所有进一步的实验。

5.2. Matching results

  由于对应网络在训练优度和离群值减少网络中发挥着重要作用,因此我们必须评估其相对于现有方法的性能。为此,我们使用了两种相关的和可用的方法:标准化交叉相关性(NCC),以及休斯等人提出的伪孪生网络匹配pseudo-Siamese matching approach(PSiam)方法Hughes et al. (2018)

  为了确保一个公平的比较,我们在相同的数据集上,并在与我们的通信网络相同的数据增强和预处理下,重新训练了伪暹罗方法。由于pseudo-Siamese matching approach需要相应的和非对应的SAR-光学图像对来进行训练,我们应用随机偏移来创建非对应的对。此外,SAR和光学对都被裁剪到128×128像素。在评估阶段,我们将伪暹罗网络全部应用于SAR搜索补丁上,使用滑动窗口的方法,以生成一个对应的热图。

表5显示了在我们的ground-level Harris corner 得到的测试数据集上进行评估时,baseline方法与该方法相比的匹配精度和精度。

  从表5中可以清楚地看出,我们所提出的匹配架构比所对比的baseline方法在匹配正确性和精度方面提供了显著的提高。表5中的测试精度与表4中现实的验证精度之间的差异很可能是因为用于测试的场景的多样性更加广泛。

  在图12中。我们评估了由各种方法生成的对应热图的尖锐性和平滑性。这两种特性都是可取的特性,因为它们有更好的选择性和可解释性,同时减少了结果热图的模糊性。为了进行这一评估,我们比较了对应点周围位置的热图的形状。我们为每种方法标准化了成功匹配的热图,这样它们的动态范围是可比的,并且它们的峰值是对齐的。然后我们生成中值热图,分析相对于行和列最大峰值的截面。

  从图12可知,NCC和PSiam方法都存在大量的局部极大值,这导致热图中较低的动态范围,以及较少可解释的结果,另一方面,我们所提出的解决方案倾向于产生具有单一全局最大值的光滑热图,以获得精确匹配的结果。

  通过评估实例热图子集,通过定性过程进一步研究所产生的对应热图的质量。该子集是基于所有三种方法都获得相似匹配精度的场景来选择的。因此,我们评估了三类对应热图,即正匹配(小于1像素误差)、不准确匹配(3到5像素误差之间)和𝐿2误差大于7像素的不成功匹配。每个类别的示例结果如图所示。分别为13、14和15。对于每个热图,真正的对应点是搜索窗口的中心,所有的热图都使用有效的填充来计算。

   图13中显示了使用对应网络产生的单一全局球峰值,与结果合理的NCC以及和有噪声的PSiam热图的比较结果。同样的趋势是,图14具有相同的趋势,但有轻微的不正确,该方法的结果失去了光滑性,局部极大值开始扩展。最后,在匹配失败的情况下,如下图15所示。所有方法的热图形状都恶化为具有多个局部最大值,尽管这些都是沿着模糊的方向发生的。图14和15表明,我们的方法以一种可预测的方式失败了.因此,对应热图可以直接用于检测异常值的假设是正确的。(就是说正确的和错误以及不太准正确的配准在correspondence heatmap上表现出较大的差异,所以可以拿着correspondence heatmap的特征来区分匹配的好坏,进而去掉错误匹配点

5.3. Goodness results

  为了了解特定模态优度网络的性能,以及最小或最大融合对交叉模态优度的影响,我们评估了关于测试数据集的二元分类性能。该评估根据分类精度、精度和召回率进行,定义为:(分是否是对应关系的patch)

其中,TP、TN、FN和FP分别代表实阳性、真阴性、假阴性和假阳性结果的总数。本调查的结果详见表6。

 表6中提供的结果代表了在预测SAR-光学贴片对产生精确对应关系的可能性时的二元分类精度。因此,结果并没有反映这些补丁下的对应精度,而是良好网络在各种配置下识别良好的补丁。优度网络的总体和相对较低的精度,见表6,突出了在非常异构领域的可匹配区域中确定SAR和光学的复杂性。然而,通过比较跨域优度结果,我们发现使用最小融合时优度网络精度有所提高,当使用最大融合时召回有很大的提高。这些结果突出了各种融合算子对后来用于匹配的最后一个候选点集的影响。通过进一步分析结果,很明显,最小融合算子使优度网络偏向于更严格的分类,这反过来导致假阳性率降低,但代价是减少了一些候选对应的patch。相反,最大融合的情况正好相反,它倾向于选择更多的候选补丁,但代价是更多的假阳性分类。

  图16描述了高优度和低优度区域的例子,以及分类错误的区域。这些例子区域是从使用最小融合生成的跨模态优度结果中得到的。

从图16我们可以看到,已确定的高优度的区域在这两种模式中都包含了强烈的、明确的和可区分的特征;例如,道路交叉口、场地边界和清晰的建筑足迹。而低优度区域缺乏这些特性,并且包含只在单一模态中可见或缺乏结构的特征。在假阳性区域的情况下,在这两个区域中确实存在强特征,然而,这些特征是潜在的模糊性或缺乏可鉴别性。在假阴性的结果中也可以看到同样的属性。

  虽然遥感图像被高度校准,但云和不同的日光条件会导致光学图像的光照变化。为此,我们评估了在不同光学图像亮度条件下联合识别的高优度点的可重复性。为此,光学图像亮度以10%的增量调整了介于[−50%,50%]之间的系数。然后利用优度网络来确定这些调整后的光学图像与原始SAR图像之间的高优度点。然后根据在非亮度调整图像中检测到的原始点集计算检测点的可重复性。结果发现,优度网络在亮度强烈变化(±20%)时可以重复检测到原始点的45%到60%,然而,在图像光照的极端变化(大于30%)下,优度网络崩溃,重复性大幅降低。

  由于优度网络的目的是提高对应网络的匹配精度,通过预先选择具有较高正确匹配概率的区域,我们通过匹配过程对优度网络进行了进一步的评估。表7,给出了当我们与已被确定为具有高域特定性或交叉模态优度的测试补丁进行匹配时的匹配性能。被确定为具有高优度的原始测试数据集的比例被描述为区域的数量(#区域)。  

  从表7中提供的结果可以明显看出,基于优度的区域预滤波提高了超过基线的匹配精度和表5精度。此外,在评估数据集中发现的良好区域的低百分比暗示了使用光学域Harris角来创建数据集是非最佳选择。

  通过将匹配结果(表7)与优度分类结果(表6)进行比较,各种融合方法的效果都很明显。最小融合算子(它使优度网络偏向于支持低假阳性率)会导致更高的匹配精度和精度,但代价是更少的已识别的对应点。相反,最大融合(使网络偏向于确保所有良好区域被识别)导致较低的整体匹配精度,但确定了更高的候选补丁总数。在此基础上,有人认为融合算子的选择应该基于对所确定对应点的最终应用的知识,以及这些应用对异常值的敏感性。

  虽然使用高优度区域可以提高匹配性能,但其代价是整体对应关系更少,因为该区域明显大于用于计算点特征的区域(correspondense heatmap的范围大,goodness heatmap只是一些特征比较明显的点)。然而,这被认为是可接受的权衡,因为许多下游任务,如共同登记(Muller等人,2012;Suri和Reinartz,2010;Merkle等人,2017)和SAR光学立体摄影测量(邱等人,2018;Bagheri等人,2018)支持准确性和空间多样性。

5.4. Outlier reduction

  该匹配管道的最后一个组成部分是离群值减少网络outlier reduction network(ORN)。我们评估了它在对测试数据集的correspondense heatmap进行分类方面的性能。我们进一步研究了包含ORN对匹配精度的影响,最后我们在测试数据集上以端到端的方式评估了完整的匹配框架。当在测试数据集上评估ORN时,实现了81%的二元分类精度,精度为76.1%,召回率为89.5%。这表明,仅基于匹配热图就可以实现成功匹配的分类。图17提供了正分类结果和负分类结果的可视化例子。

  如图17所示、对应的表面形状说明该网络不仅依赖于峰值的局部特征来进行分类,尽管这些特征似乎具有相对较强的影响。
  在表8中,我们研究了离群值减少网络对匹配性能的影响。为此,我们将ORN应用于测试数据集匹配结果的匹配热图,如表5所示,以及最小融合(交叉最小)优度结果,表7。 (第二排就是端到端的估计 )后者导致了对网络进行等价的端到端评估。

  从表8可以清楚地看出,不管用于匹配的特征或区域如何,添加离群值减少网络都大大提高了结果对应集的精度。然而,使用端到端方式的完整框架的匹配性能具有更高的正确率和更高的精度。

5.5. Large-scale scene matching

虽然我们已经评估了我们框架的单个子组件以及整个框架的性能,但这些调查仍然局限于基于补丁的测试数据集。因此,为了全面评估我们提出的框架的端到端性能和适用性,我们将其应用于确定在一个没有经过手动配准的大型测试场景(约0.8km×1.8km)上的找对应点的任务。这个例子的场景取自英格兰的朴茨茅斯市,如图18所示,带有最后的对应点在上

  为了检验配准的改进效果,我们采用了最后得到的一组对应点中平均位移(mean shift),并将其应用于光学场景,以使其与SAR图像对齐。棋盘板覆盖在图中。19a、c描述了原始的、为配准的场景的子集。而图。19b,d在使用预测的对应集的平均位移调整对准后显示相同的子集。在𝑥和𝑦维度中,平均位移分别为(11.03,−12.74)像素,标准偏差分别为(1.99,2.20)像素。

 从图18可以看到,我们提出的框架并没有产生大量的对应点。然而,在图19中强调了这些通信的准确性和有效性。

  尽管这些结果证明了我们提出的方法能够准确地确定在空间不同的欧洲测试场景中SAR和光学图像之间的对应关系,但它们不太可能反映出具有显著不同自然和人工结构的区域的网络性能。为了达到这种情况,所提出的框架将需要被重新训练,或在相应的SAR和光学图像对的全球不同的数据集上进行微调。

6. Conclusion

本文提出了一种用于合成孔径雷达和光学图像稀疏匹配的端到端框架。该框架由三个子组件组成,每个子组件都经过训练,可以在标准提案中执行特定的任务,即匹配的、离群值的检测管道。优度网络提出了在这两种模态都能匹配的候选补丁。对应网络在多尺度特征空间上计算交叉相关性,生成对应热图,最后由离群值减少网络进行滤波,以减少假阳性对应的数量。

我们单独证明,与现有的SAR光学匹配方法即NCC(Burger and Burge, 2009)和伪孪生网络,这些子组件都提高了测试数据集et实现的匹配精度。我们进一步以端到端的方式对管道进行了评估,并表明它的𝐿2距离是平均1.71像素的(距离到地面的真相对应),精度为1.13像素。最后,我们证明了我们的框架在产生一组准确的通信关系方面的有效性,并可应用于提高光学图像的整体地理定位精度的任务。

尽管如此,我们还有改进的空间:最终通信集的大小主要受到优度和离群值减小网络的限制。因此,在未来的工作中,我们将研究良好网络的替代架构,它可以在全尺度图像上运行,同时仍然考虑模态之间的偏移。此外,最近的研究表明在渐进训练策略方面取得了成功,以迭代和交替的方式对多个子组件进行训练((Karras et al., 2017; Shaham et al., 2019))。应用这种方法通过允许网络迭代地细化这些位置来训练优度和对应网络可以通过减少非最佳选择的训练点的影响,从而可能会提高性能 

uploading.4e448015.gif转存失败重新上传取消uploading.4e448015.gif正在上传…重新上传取消uploading.4e448015.gif正在上传…重新上传取消uploading.4e448015.gif正在上传…重新上传取消uploading.4e448015.gif正在上传…重新上传取消uploading.4e448015.gif正在上传…重新上传取消uploading.4e448015.gif正在上传…重新上传取消

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值