《Bridging the Domain Gap for Ground-to-Aerial Image Matching》论文翻译

摘要

学习生成自然场景一直是计算机视觉中的一项艰巨任务。当生成以具有截然不同的视图的图像为条件时,这将更加费劲。这主要是因为在视图之间理解,对应和转换外观和语义信息并不容易。在本文中,我们尝试使用条件生成对抗网络(cGAN)解决跨视图图像合成的新问题,从空中到街景,反之亦然。提出了两种新的体系结构,分别称为Crossview F ork(XF ork)和Crossview Sequential(X-Seq),以生成分辨率为64×64和256×256像素的场景。 X-F ork体系结构具有单个鉴别器和单个生成器。生成器在目标视图中使图像及其语义分割产生幻觉。 X-Seq体系结构利用了两个cGAN。第一个生成目标图像,该目标图像随后被馈送到第二个cGAN以生成其对应的语义分割图。来自第二个cGAN的反馈有助于第一个cGAN生成更清晰的图像。我们提出的两种体系结构都学习生成自然图像及其语义分割图。所提出的方法表明,与仅考虑场景视觉外观的传统图像到图像转换方法相比,它们能够更好地捕获和维护源视图和目标视图中对象的真实语义。与两种最先进的方法相比,广泛的定性和定量评估支持我们框架的有效性,从而可以在截然不同的视图中生成自然场景。

1.Introduction

估计图像的地理位置已作为图像匹配任务解决,其中将查询图像与具有已知位置的参考图像数据库进行比较。传统上,已经在从相同视图(主要是街景[14、35、44])拍摄的图像之间进行匹配,这些图像在场景内容方面具有高度的视觉相似性。由于这些地面参考图像通常集中在具有更多人类可及性的城市区域附近,因此该方法的适用性仅限于那些区域。利用来自Google地图,Bing地图等的密集覆盖地球表面的航空图像,研究人员最近探索了交叉视图图像匹配的前景[18、24、41],其中将查询地面图像与航空影像。由于地面和空中影像之间视点的变化,这带来了额外的挑战,即在两个视图中捕获同一场景的方式有所不同。这激励我们探索将查询街景图像转换为鸟瞰图,以便转换后的图像具有与其匹配的图像相似的场景表示。
生成对抗网络(GANs)[12]在从随机采样的噪声矢量[30]或条件变量(例如文本[31,47],图像[19,32],标签[ [28]等启发了我们将问题框架化为视点平移和特征匹配。此外,如[20,48]中所述,GAN已用于域转移问题,以学习不同域表示之间的映射。 [32、33、9、49]最近进行的交叉视图综合工作成功地在空中和街道视图之间转换了图像。在本文中,我们解决了以下问题:给定地面全景,检索匹配的航拍图像。为了解决这个问题,我们下一步要从地面全景图中合成航拍图像,并将其用于图像检索。
跨视点图像合成问题的复杂性及其挑战是众所周知的。因此,不能依靠合成图像来完全替代查询地面图像来解决匹配任务。因此,我们提出了如图1所示的框架,以将合成图像作为辅助信息合并到匹配管道中,以弥合空中视图和地面视图之间的现有域间隙。我们尝试学习类似于其对应的地面图像的空中参考图像以及合成的空中图像的表示形式。由于合成的航空图像是街景(地面)图像的变换表示,因此我们希望它们包含代表性的特征。通过以这种方式学习表示,合成的航拍图像会迫使网络最小化航拍图像和街景图像的特征表示之间的距离。此外,我们假设通过考虑合成的航空图像而不是街景图像,可以更好地学习航空图像的某些特征。因此,对这些图像三元组(地面,从地面合成天线以及相应的真实天线)的联合训练将有助于气流保留重要的线索,而这些线索在交叉查看训练中可能会丢失。我们将合成图像的学习到的互补特征表示与查询图像特征融合在一起,以获得用于图像匹配任务的鲁棒表示。
在深度神经网络的不同层提取的特征捕获输入图像的语义信息的不同级别。对于比标准分类问题更具挑战性的图像匹配任务,我们在深度神经网络的多层中利用要素固有的多尺度金字塔结构并将其聚合以获得更好的图像表示。
总而言之,本文做出了以下贡献。我们提出了一种新颖的方法来利用使用GAN合成的航空图像来提取互补特征,以进行跨视图图像匹配。除了通常使用的语义分割外,我们还将边缘图与输入图像结合在一起,以通过提供有关对象形状和边界的线索来改善网络的综合视图。合成图像弥合了交叉视图图像之间的域间隙。利用辅助损耗对图像三元组进行联合训练有助于改善网络训练。所提出的特征融合策略证明了GAN具有建设性训练和互补特征学习的功能。最后,我们显示了以不同分辨率聚合来自多个卷积层的特征,极大地有助于保留复杂的跨视图匹配任务所需的从粗糙到精细的潜在表示。我们广泛的实验表明,所提出的联合特征学习方法优于CVUSA数据集上的最新方法[46],并且通过特征融合,我们在top-1和top-10检索精度上有了显着改进。

2. Related Works

2.1. Domain Transfer and GANs

GAN在域传输任务中非常流行。在[19,48,20,42,10]中报道的作品中,两个域之间的图像映射;学习源域和目标域。增强的CycleGAN [2],StarGAN [7]探索了多对多的跨域映射。
在[46,32,11]中,人们已经探索了具有更大挑战性的鸟瞰图和地面视图的交叉视图关系,其中图像中的对象之间的语义和视点重叠最小。随着GAN的流行,这些对比领域之间的跨视图图像合成吸引了广泛的兴趣[32、33、9、49]。这些工作已经成功地完成了航空和地面裁剪(单相机)图像之间的图像转换。翟等。 [46]探讨了从地面语义布局合成地面全景图的可能性,其中布局是根据航拍图像的语义图进行预测的。在这里,我们将地面全景图直接转换为鸟瞰图,并将其用于跨视图图像匹配任务。

2.2. Multi-scale Feature Aggregation 多尺度特征融合

深度神经网络不同层的特征本质上是同一图像的多分辨率特征。大量的文献已经针对诸如关键点检测,人体姿势估计,语义分割之类的应用探索了多种尺度的特征[17、29、34、26、22]。 FPN [25],HyperNet [21],ION [5]探索了用于物体检测的多尺度特征。先前,Hypercolumns [13]是从多层功能创建的,用于对象分割和定位。在这项工作的基础上,我们还以多个比例汇总了要素,以有效地获得图像的鲁棒表示。
2.3.Image Geolocalization 地理定位
图像地理定位已作为计算机视觉社区中的图像匹配任务[3,15,43]解决。早期在相同视图中进行地理定位[44,38,35,45]匹配图像的工作;使用手工制作的功能将查询的街景图像与参考街景图像进行比较。海斯(Hays)等人。 [14]提出了一种数据驱动的方法来从单个图像估计地理位置上的分布。
跨视图匹配已被一些近期的作品[24、36、18、40、39]使用手工制作的功能以及深度网络进行了探索。班萨尔(Bansal)等人。 [4]探索了门面匹配。田等。 [37]在斜视图中匹配了建筑物特征。 [18]的最新工作利用NetVLAD [3]来获取跨视图对的视图不变描述符,并将其用于匹配。在这项工作中,我们利用合成的航空图像作为信息的补充源,以更好地了解街景图像,以解决跨景匹配任务,而不仅仅是像以前的方法那样学习视不变特征。

3. Method

我们提出了一种新颖的方法,通过利用GAN利用合成的航拍图像来弥合街景和航拍图像之间的领域鸿沟。我们将学习合成的航空影像的表示以及地面和航空影像的表示。此外,我们将地面图像的互补表示与其对应的合成航拍图像的表示融合在一起,以学习地面图像的鲁棒查询表示。此外,我们利用输入图像的边缘图为GAN提供对象形状和边界的概念,并促进跨视图图像合成。本节其余部分的组织如下。在下一个小节中,我们将简要介绍如何将GAN用于交叉视图图像合成,然后进行联合特征学习,最后描述特征融合。

3.1. Cross-View Image Synthesis 交叉视图合成

我们采用[32]的X-Fork生成器架构来训练GAN进行跨视图图像合成。 X-Fork是一种多任务学习体系结构,可以合成交叉视图图像以及语义分割图。我们对X-Fork体系结构进行了以下修改。由于我们的输入是全景(矩形),因此瓶颈处的要素图也是矩形(1×4)。我们将要素重塑为正方形(2×2),然后应用多次上卷积运算以生成512×512分辨率的航拍图像。接下来,我们利用输入图像的边缘图来概述图像中存在的对象。我们采用Canny Edge Detection [6]来获得输入的边缘图。沿通道将边缘图与全景图堆叠在一起,以创建4通道输入。 3通道用于RGB图像,1通道用于边缘图。输出为RGB图像及其鸟瞰图的分割图。我们在联合特征学习实验中利用了合成的航拍图像。

3.2. Joint Feature Learning

我们建议学习图像三元组的表示形式:查询地面全景图,Ig,合成航空图像,来自地面全景图的Ia0和空中图像Ia0,以便合成航空图像表示fa0将图像表示fgand彼此推近。
联合特征学习架构如图2a所示。编码器块以绿色(对于地面图像)和蓝色(对于航空图像)三角形显示。每个编码器都包含第4.2小节所述的深度卷积架构。我们优雅地利用了多层深度神经网络中固有的多尺度金字塔结构。我们考虑来自最后三个卷积层的特征,即conv 6,conv 7和conv 8层。这些要素被聚合,然后是一个完全连接的层,以获取每个视图中图像的要素表示。
航拍和街景图像的编码器不共享权重。由于从不同的视角捕获了交叉视图图像,因此视觉实体呈现出剧烈的域变化。这两个编码器对这组不同的图像进行操作,因此可以理解,权重分配不是一个很好的选择。另一方面,Ia0和Ia的编码器共享权重,因为两个图像都代表空中域。这样,空中编码器学习适合于合成图像Ia0以及真实图像Ia的权重。因此,fa0有效地迫使要素fa接近fgand,从而弥合了两个视图之间的域间隙。这是可能的,因为与直接从Ig学习相比,转换后的图像Ia0捕获了Ig的表示,网络对Ia0的学习比对Ig0的学习更容易。该策略在训练时利用合成图像,但在测试期间不需要它们。 Ia0和Ia之间的辅助损耗影响航空图像编码器通过考虑合成的航空图像来学习航空图像的表示形式。我们使用加权的软边际等级损失[18]在这些图像三元组(Ig,Ia0和Ia)上共同训练网络[18],下面将对此进行说明。

3.2.1 Weighted Soft-margin Triplet Loss

由于捕获每组图像的视点不同,因此交叉视图(例如地面和空中)图像中的视觉实体显示出剧烈的域变化。现有的最新方法通过学习视图不变的图像描述符来解决该问题。我们提出了一种通过利用条件GAN的生成能力来合成地面全景查询的空中表示并将其用于最小化两个视图之间的域间隙的解决此任务的新方法。按照我们的联合特征学习方法,与参考(目标)图像具有相同视角的合成图像有助于网络保留航空图像中的重要线索。我们将合成航拍图像的互补特征与原始地面全景特征融合在一起,以获得鲁棒的查询表示形式。此外,我们采用多尺度特征聚合,以保留不同尺度的图像表示,可用于解决此复杂任务。实验结果表明,就前1%和前1%的检索精度而言,我们提出的方法在具有挑战性的CVUSA数据集上的性能明显优于最新方法。此外,我们在带有地理参考信息的新收集的交叉视图本地化数据集上评估了提出的城市景观方法的一般性。实验结果表明,就前1%和前1%的检索精度而言,我们提出的方法在具有挑战性的CVUSA数据集上的性能明显优于最新方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值