【无标题】

最新推荐文章于 2024-09-21 09:43:26 发布

大烤翅

最新推荐文章于 2024-09-21 09:43:26 发布

阅读量1.8k

点赞数

分类专栏：论文简读文章标签：网络计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_39627422/article/details/121578134

版权

论文简读专栏收录该内容

5 篇文章 1 订阅

订阅专栏

摘要

虽然成功估计照片的地理位置可以实现许多有趣的应用，但这也是一项非常具有挑战性的任务。由于问题的复杂性，大多数现有方法仅限于特定区域、图像或全球地标。只有少数提案预测GPS坐标没有任何限制。在本文中，我们介绍了几种深度学习方法，它们采用后一种方法，并将地理定位视为一个分类问题，其中地球被细分为地理单元。我们建议利用多重分割的层次知识，并额外提取和考虑照片的场景内容，即室内、自然或城市环境等。因此，卷积神经网络的学习过程中包含了不同空间分辨率的上下文信息以及各种环境的更具体特征。在两个基准上的实验结果表明，我们的方法的有效性优于最新技术，同时使用的训练图像数量显著减少，并且不依赖于需要适当参考数据集的检索方法。

1 Introduction

在没有任何先验知识的情况下预测照片的地理位置是一项非常具有挑战性的任务，因为从地球各地拍摄的图像描绘了大量的变化，例如不同的时间、对象或摄影机设置。此外，这些图像往往模棱两可，因此只能提供有关其各自记录位置的很少视觉线索。由于这些原因，大多数方法通过将问题限制在城市照片（例如著名地标和城市[3,25,34,43,45,48]或沙漠或山脉等自然区域[5,33,38]）来简化照片地理定位。只有少数框架在全球范围内处理任务，而不依赖具体图像[13,14,39,42]或任何其他先前假设。这些方法尤其受益于深度学习[15,16,21]的进步，以及Flickr等平台上公开的大规模图像收集数量的增加。由于问题的复杂性和从地球各地拍摄的照片的不平衡分布，基于卷积神经网络（CNN）[39,42]的方法将照片地理定位视为一项分类任务，将地球细分为具有相似图像数量的地理单元。然而，根据Vo等人[39]，即使是目前的CNN也无法记住整个地球的视觉外观，同时也无法学习场景理解模型。此外，地理分区方法[39,42]带来了一个权衡问题。

更精细的分区可以在城市范围内提高精度（位置误差小于1km），而更粗糙的分区可以在国家范围内（750km）提高性能。我们认为，造成这些问题的一个主要原因是各种环境造成了巨大的多样性，这需要特定的特征来区分不同的位置。参考图1，我们认为城市形象主要的不同在于建筑、人和特定物体，例如汽车或街道标志。相反，森林或室内场景等自然场景很可能分别由编码动植物或室内陈设风格的特征来定义。因此，我们声称，照片地理定位可以从环境场景的上下文知识中获益匪浅，因为数据空间的多样性可能会大大减少。

图1.左图：模拟地理位置估计方法的工作流程。右图：特定场景概念的不同位置的示例图像。

在本文中，我们通过（1）在多分区方法中结合不同空间分辨率的分层知识，以及（2）提取和考虑有关各自类型的环境设置（例如，室内、自然和城市）的信息来解决上述问题。我们认为光地理定位是一种分类任务，通过将地球细分成具有均衡数量的图像的地理单元（类似于PlaNet[42]）。

贡献如下：我们结合所有尺度的输出来利用CNN的分层信息，该CNN与来自多个分区的标签同时训练，以编码局部和全局信息。此外，我们建议采用两种方法来包含有关各自场景类型的信息：（a）使用不同场景类别的图像分别训练的深度网络，以及（b）使用地理和场景标签训练的多任务网络。这将使CNN能够了解在不同环境中估计图像GPS（全球定位系统）坐标的具体特征。工作流程如图1所示。

据我们所知，这是第一种考虑场景分类并利用层次（geo）信息改进无限制照片地理定位的方法。此外，我们使用了最先进的CNN架构，我们的综合实验包括评估不同场景概念的影响。在两个不同基准上的实验结果表明，我们的方法在不依赖图像检索技术（Im2GPS[13,14,39]）的情况下优于最新技术，同时与PlaNet[42]相比，使用的训练图像数量显著减少，这使得我们的方法更具可行性。

论文的其余部分组织如下。在第2节中，我们回顾了有关照片地理位置估计的相关工作。第3节介绍了提取和利用特定场景和多重地球分割的视觉概念来估计图像GPS坐标的拟议框架。第4节介绍并讨论了两种不同基准上的实验结果。第5节总结了本文并概述了未来工作的领域。

2

视觉地理定位的相关工作大致可分为两类：（1）仅限于特定环境或图像的建议，（2）在行星尺度上不受任何限制的方法。在本节中，我们将重点讨论第二类，因为它与我们的工作关系更为密切。关于更全面的审查，我们参考Brejcha和ˇCadık的调查[8]。

第一类的许多建议都是在城市范围内提出的，将问题限制在特定的城市或地标上。这些主要应用检索技术将查询图像与参考数据集进行匹配[3,12,18,20,29,34,46]。关注地标识别的方法使用预定义的地标集或以无监督的方式对给定的照片集进行聚类，以检索最感兴趣的区域进行地理定位[4,23,28,48]。其他建议将查询图像与城市的3D模型进行匹配[10,19,24,27,30]。然而，这些方法的基础数据收集仅限于流行场景和城市环境，因此在预测没有（许多）实例匹配的照片时缺乏准确性。因此，一些方法还利用卫星航空图像来增强稀疏覆盖区域的地理定位[35,40,44,45]。在此背景下，提出了解决方案，以宽基线方法将航空查询图像与包含卫星图像的参考数据集进行匹配[2,6,43]。其中一些建议[25,26]甚至涉及到行星尺度上的地理定位问题。但是由于这些框架需要包含卫星图像的参考数据集，所以我们仍然认为它们是受限的框架。只有少数方案设计用于描述海滩[9,41]、沙漠[38]或山脉[5,33]的图像的自然地理定位。

上述所有建议仅限于覆盖良好的区域、特定图像或环境场景。作为行星尺度地理位置估计的第一次尝试，Hays和Efros[13]引入了IM2GPS。他们使用一种检索方法，根据六个全局图像描述符的组合，将给定的查询图像与包含600多万张GPS标记图像的参考数据集相匹配。作者通过结合特定几何类（如天空和地面）的信息以及改进的检索技术，扩展了DIM2GPS[14]。Weyand等人[42]介绍了Planet，其中地理定位任务被视为一个分类问题。地球被自适应地细分为具有相似数量图像的地理单元，这些图像用于训练卷积神经网络。这种方法明显优于Im2GPS，Im2GPS鼓励Vo等人[39]使用CNN学习特征表示，以改进其M2GPS框架。利用查询照片的提取特征，基于核密度估计检索参考数据集中的（k）-最近邻。通过这种方式，引入了一种多分区方法来同时学习不同空间分辨率下的照片地理定位。然而，与我们的工作相反，这种方法并没有利用每个尺度上的预测所给出的分层知识。

3 Hierarchical Geolocalization using Scene Classification

在本节中，我们提出了用于地理位置估计的深度学习框架。根据Lanet[42]，我们通过将地球细分为包含相似数量图像的地理单元（第3.1节），将该任务视为一个分类问题。与以前的工作不同，我们仅使用给定照片的视觉内容来利用环境场景的上下文信息来提高定位精度。因此，我们根据Places2数据集[49]（第3.2节）的365个类别为所有图像指定场景标签。第3节介绍了几种旨在整合给定场景类型的提取信息和多个地理单元划分的方法。3.最后，我们解释了所提出的方法如何应用于基于预测的地理单元概率ˆC估计图像的GPS坐标（第3.4节）。在此背景下，我们将介绍我们的分层方法，以组合多个空间分辨率的结果。拟议框架的概述如图2所示。

图2.提出的地理位置估计框架的pipeline。灰色：作为每个网络一部分的基线步骤。其他步骤以不同的颜色显示。在训练过程发生之前，虚线元素将应用于所有图像。

3.1 Adaptive Geo-Cell Partitioning

S2几何库用于生成一组不重叠的地理单元C。更详细地说，地球表面投影在一个封闭的立方体上，六个边代表初始单元。应用基于图像GPS坐标的自适应分层细分[42]，其中每个单元是四叉树的节点。从根节点开始，递归细分相应的四叉树，直到所有单元包含最大τmax。

之后，所有生成的照片小于τmin的单元格都将被丢弃，因为它们很可能覆盖极或海洋等难以区分的区域。与将地球细分为面积大致相等的单元相比，这种方法有几个优点。一方面，自适应细分可以防止数据集偏差，并允许创建具有相似数量图像的类。另一方面，在摄影良好覆盖的区域中生成精细单元。这使得能够更准确地预测图像位置，最有可能描绘出有趣的区域，如地标或城市。

3.2 Visual Scene Classification

为了对场景进行分类并提取场景标签，应用了具有152层Places2数据集[49]的ResNet模型[16]。该模型已经在来自365个不同地点类别的1600多万张训练图像上进行了训练。这非常符合我们的方法，因为最终的分类器已经能够区分描述特定环境的图像。我们使用输出向量的最大概率，基于所有训练图像的场景集S365预测场景标签。基于所提供的场景层次，我们另外提取分别包含16个和三个上级场景类别的集合S16和S3的标签。我们添加所有被分配到同一上级类别的类的概率，并生成相应的标签。但是，有些场景（如eBarner）被分配到多个上级类别（室外，自然；室外，人造），因为它们在视觉上重叠。因此，我们首先将这些类的概率除以指定类别的数量，以保持规范化。请注意，在本文的其余部分，我们使用了“户外自然”和“户外人造”这两个术语。

3.3 Geolocation Estimation

本节介绍了几种基于卷积神经网络的无限制行星尺度地球定位方法。首先，我们提出了一种不使用场景信息和多重地理分割的基线方法。在下文中，我们将介绍如何将不同空间分辨率的信息以及环境概念整合到训练过程中。在此背景下，提出了两种利用视觉场景标签的不同方法。图2中提供了一个概述。

Baseline：为了评估提出的地理定位方法的影响，我们首先提出了一个不依赖于环境设置和不同空间分辨率信息的基线系统。因此，我们生成一个地理单元分区C，如第3节所述。1.对于分类，我们在ResNet架构的全局池化层上添加了一个完全连接的层[16]，其中输出神经元的数量对应于地理单元的数量|C|。在训练过程中，基于概率分布的交叉熵地理定位和编码在one-hot向量中的ground truth单元标签最小化。

Multi-Partitioning Various：我们建议在多个空间分辨率下同时学习地理位置估计（根据Vo等人[39]）。与基线方法不同，我们为所有分区P={C1，…，Cn}的地理单元添加了一个完全连接的层。使用每个分区的损失值LSingleGeo的平均值计算多分区分类损失LmultiGeo。因此，CNN能够在不同的尺度上学习地理特征，从而产生更具辨别力的分类器。然而，与Vo等人[39]相比，我们进一步利用分层知识进行最终预测。详情见第3.4节。

Individual Scene Networks（ISN)：在第一次尝试合并有关照片地理定位环境设置的上下文信息时，对描绘特定场景的图像的单个网络进行了训练。对于每张照片，我们使用第3.2节中介绍的场景分类提取场景概率。在训练过程中，场景概率大于τS阈值的每幅图像都被用作各自场景网络（ISN）的输入。采用这种方法的优势在于，网络仅针对描述特定环境场景的图像进行训练。它大大减少了底层数据空间的多样性，并使网络能够了解更多特定的功能。相反，有必要为每个场景概念训练单独的模型，如果不同概念的数量变大，这很难管理。出于这个原因，我们建议使用相应环境类别的图像对最初在没有场景限制的情况下训练的模型进行微调。

Multi-Task Network(MTN)：由于上述的地理位置估计方法在大量不同的环境概念下可能变得不可行，因此我们的目标是使用一个将照片地理定位和场景识别视为多任务问题的网络来实现一种更切实可行的方法。为了鼓励网络区分不同环境场景的图像，我们同时为这些互补任务训练两个分类器。事实证明，添加另一项（补充）任务可以有效地改善主要任务的结果[7,17,32,47]。更具体地说，利用了ResNet CNN体系结构[16]的全局池层之上的附加全连接层。该层的输出神经元数量对应于场景类别的数量。网络中所有其他层的权重完全共享。此外，基于ground truth one-hot向量和场景概率的场景损失使用交叉熵损失最小化。多任务网络（MTN）的总损失由地理损失和场景损失之和定义。

3.4 Predicting Geolocations using Hierarchical Spatial Information

为了根据分类输出估计GPS坐标，我们应用第3.3节中的训练模型。根据给定查询图像的方向，在三个均匀采样的c裁切上。然后，计算每个裁切产生的类别概率的平均值。请注意，对于单个场景网络，需要进行额外的测试步骤。在这种情况下，首先使用第3.2节中描述的最大概率预测场景标签，以便将图像输入相应的地理定位。

Standard Geo-Classification：在不依赖分层信息的情况下，我们仅利用给定地理单元划分的概率。在这方面，我们以最大概率分配类别标签来预测地理单元。应用第3.3节中的多分区方法。因此，我们能够获得不同空间分辨率下的|P|类概率。我们认为，应该利用所有尺度上的概率来增强地理定位，并结合所有划分的能力。

Hierarchical Geo-Classification：在不依赖分层信息的情况下，我们仅利用给定地理单元划分的概率。在这方面，我们以最大概率分配类别标签来预测地理单元。应用第3.3节中的多分区方法。因此，我们能够获得不同空间分辨率下的| P |类概率。我们认为，应该利用所有尺度上的概率来增强地理定位，并结合所有划分的能力。

Class2GPS：根据预测的类别，我们提取给定查询图像的GPS坐标。与Weyand等人[42]相比，我们使用的是所有训练图像在预测单元格（而不是地理中心）中的平均位置。这对于包含大部分照片拍摄的有趣区域的区域更为精确。想象一下，一个地理单元以海洋和位于单元边界的城市为中心。在本例中，使用地理中心的错误将非常高，即使很明显照片很可能是在城市拍摄的。