地理感知的网络

摘要 

  细粒度识别根据细微的视觉差异来区分类别。为了区分这些具有挑战性的视觉类别,利用其他信息是很有帮助的。地理定位是一个丰富的附加信息源,可用于提高细粒度分类精度,但尚未得到研究。我们对这一领域的贡献是双重的。首先,据我们所知,这是第一篇系统地研究了通过使用地理定位先验、后处理或特征调制将地理定位信息纳入细粒度图像分类的各种方法的论文。其次,为了克服没有细粒度数据集具有完整地理位置信息的情况,我们发布了两个具有地理位置信息的细粒度数据集,为现有的流行数据集(iNaturalist和YFCC100M)提供补充信息。通过利用地理位置信息,我们将强baseline的“仅图像”模型的在iNaturalist上的top-1精度从70.1%提高到79.0%。通过比较几种模型,我们发现最佳性能是通过一种后处理模型实现的,该模型需要仅图像模型baseline的输出和地理位置。然而,对于资源受限模型(MobileNet V2),通过像素和地理位置联合训练的特征调制模型的性能更好:精确度从59.6%提高到72.2%。我们的工作为在服务器和设备上的细粒度识别模型中结合地理位置信息提供了有力的证据。

1 Introduction

  阐述了细粒度识别的挑战。此外,图像的拍摄常常由于不同的角度,不能捕获细微的差异。为了克服这些困难,研究者使用各种形式的补充信息来帮助细粒度识别,例如属性、姿势和文本[25,5,17]

  地理位置已经被证实对区分粗粒度类别,例如桥和历史遗迹[20,4]是有用的。但纯粹使用原始纬度和经度(lat/lon)的好处很小,而大部分改进来自于集成额外功能,如与不同地理区域相关的Instagram标签[20]。对细粒度识别来说,另一方面,对于细粒度识别,地理定位可能发挥更大的作用,因为细粒度对象(如图1中的西部灰松鼠)的地理定位分布通常比粗粒度对象(如狗)的地理定位分布更为集中。因此,地理定位可能比一般物体更有效地消除物种的歧义。此外,从视觉上区分细粒度类通常比粗粒度类更难,这也为地理定位等其他正交信号提供了更大的改进空间。

  在本文中,我们系统地研究了在细粒度识别问题上使用地理定位的有效性,并表明仅使用原始lat/lon,我们就可以在现有的仅图像模型上实现显著的改进[7]。在细粒度数据集iNaturalist[23](8.9%)上使用原始lat/lon的改进比在粗粒度数据集YFCC100M-GEO[20](7%)上使用6个lat/lon衍生额外特征的改进更大。

  具体来说,我们首先研究了使用地理定位先验的直观方法,其中讨论了贝叶斯方法和基于白名单的方法。然后,我们研究了一种后处理方法,其中地理定位网络与logits层的预训练和冻结图像网络相结合。使用该模型观察到显著的改进。最后,我们通过特征调制方法研究了地理位置对图像特征学习的影响,在移动资源受限模型的情况下,该方法明显优于其他方法。

  为了证明我们的地理感知模型的有效性,我们引入了两个具有地理位置信息的细粒度数据集。两者都基于现有的数据集,但具有额外的细粒度标签或添加的地理位置信息。

  论文的其余部分组织如下。第2节概述了相关工作。第3节介绍了本文研究的三个地理感知网络。第4节介绍了两个具有地理位置的细粒度数据集。然后,第5节展示了实验结果。第6节总结全文。

2.Related Works

细粒度识别:

  不同于一般的视觉识别主要是由于以下两个方面:不同的细粒度类别通常只有领域专家才能分辨出的视觉差异很小;很少观察到从属对象,而常见对象在细粒度数据集中占主导地位。这导致在此类问题中出现长尾标签频率分布[13]。因此,尽管通用卷积神经网络(CNN)[19,18]的进步可以在细粒度识别方面取得进展,但在这一领域仍需要更多的研究。

  为了处理精细识别的细微视觉差异,研究人员尝试了不同的方向。在不同的模型结构中,双线性CNN通过学习局部特征交互被证明是有效的[8]。注意力网络也被用来定位细粒度标签之间的细微差别[28,10]。除了视觉信息外,研究人员还使用了其他信息,如姿势[5]、属性[25]和文本描述[17]。还研究了数据扩充和迁移学习[14,7]。

地理位置:

  已广泛用于粗粒度分类。Tang等人[20]使用了6个与地理位置相关的特征,并将它们与softmax之前的图像模型输出连接起来,以提高对雪、纪念碑和波浪等类别的分类精度。这项工作中的6个地理位置相关特征之一是纬度和经度,而其他特征包含了额外的信息,如Instagram中的地理地图和标签。为了解决类似的问题,Liao等人[15]通过查找目标图像附近拍摄的邻居图像,然后将邻居图像的标签分布作为特征输入到支持向量机(SVM)分类器中。地理定位也被用于场景理解[27]和地点识别[26]。

  然而,在细粒度识别方面,只有很少的工作尝试使用地理定位来提高准确性。Berg等人在[4]中通过结合仅图像数据集和仅地理数据集,制作了模拟地理位置的细粒度数据集。然后,利用基于贝叶斯的地理定位先验知识提高分类精度。PlantCLEF2016竞赛[12]的一些参与者尝试使用地理位置信息。比赛包括法国及其周边地区的植物物种,其中只有少数图片包含地理位置。尝试了一些基于非神经网络的方法,但没有明显的改进[6,22]。

3 地理感知网络

   在本节中,我们将研究三种将地理定位与基于图像特征的细粒度模型相结合的方法。

3.1 Geolocation Priors

  正如导言中所讨论的,动物或植物物种分布在地球上,具有一些地理特征。假设包含地理信息的数据样本在训练和测试数据集中都是独立观测的,我们可以从训练数据中提取基于地理位置的分布。有两种直观的方法可以利用此分布,而无需额外的模型训练或对仅图像分类器进行任何更改。

  贝叶斯先验:从贝叶斯推理的观点来看,在没有附加信息的情况下,给定图像观测I,传统的细粒度识别可以看作是最大似然估计(MLE)。

其中L表示图像标签,f(I|L)表示给定标签的观测的似然函数。

现在假设细粒度标签上存在先验分布P(L|G),并且遵循一些地理特征,其中G表示检查图像的地理位置。然后,它允许我们进行最大后验概率(MAP)估计:

  标签白名单: 利用地理信息的另一种方式是通过地理约束白名单约束推理结果。例如,如果在某个城市或动物园拍摄图像,则仅向用户显示在该城市或动物园中观察到的标签。地理限制白名单用作门控功能,将输出标签限制为在地理限制半径θ内具有数据观测值的标签白名单中的一个:

   其中,1_{\theta}(L,G)是一个指示函数,当L在G的地理限制半径θ内有观测值时,它等于1,否则为零。

3.2 后处理模型

  我们认为后处理模型是不接触像素的任何模型,而是消耗一个或多个图像分类器或嵌入。在这里,我们训练了一个后处理模型,该模型使用基线图像分类器的输出和地理位置坐标。

  下面评估的模型以最简单的形式接受地理位置:长度为2的向量,包含纬度和经度,标准化为范围[−1、 1).我们还试验了地心固定直角坐标和多尺度单热S2表示[24]。这些在性能上几乎没有差异。

  然后,地理位置由大小为256、128和128的三个完全连接的层处理,然后是一个大小等于输出标签地图的logit层。然后,这些被添加到图像分类器的logit,或σ−1(输出),其中σ(x)=1=(1+e−十)图2显示了架构图。在这种后期融合架构中,没有单元联合编码外观和位置。我们还试验了将图像分类器或图像嵌入的输出与地理定位网络中的一个完全连接的层连接在一起的模型。在这些模型中,单元联合编码外观和位置然而,添加这些视觉输入不会影响后处理模型的性能。这可能表明外观和位置不是紧密相互依赖的。

  在训练过程中,基线图像分类器的权重是固定的,并且梯度不会通过图像分类器推回。这样做的一个缺点是,图像分类器可能会浪费精力试图区分两个视觉上相似的标签,而这两个标签本可以仅通过地理定位轻松区分。

  与像素和地理定位联合训练相比,后处理模型提供了一些实际优势。学习率、超参数和损失函数在两个模型之间是解耦的,并且可以单独调整。类似地,可以针对图像模型和地理定位模型独立地执行训练数据的选择和平衡。如果没有地理定位的标记训练图像可用,则它们可用于训练图像分类器,但在训练后处理模型时忽略。如果标签噪声与外观相关,但与位置无关(例如野马车与马混合),则后处理模型可能会受益于包含噪声较大的训练数据源,这些数据源会损害图像分类器的性能。

 图2.后处理模型的网络结构。Logistic-1是logistic的反函数。“FCL”表示全连接层。最后一个在GeoNet框之外的FCL是logits层。 

  后处理模型的另一个特点是地理定位网络只需要学习基线图像分类器输出和ground truth之间的残差。如果基线图像分类器已经对标签进行了完美分类,那么就不会学习该标签的地理位置模型,因为不需要任何模型。因此,后处理模型最大限度地减少了对地理定位线索的依赖:它依赖于地理定位的程度仅与它对图像分类器的改进程度成比例,而图像分类器之前经过训练以最大限度地提高性能。

  添加地理定位和图像网络的逻辑具有一定的理论基础。假设外观和位置在给定ground truth标签的条件下彼此独立(因此标签的外观不会因其位置而改变)。然后P(L,G | I)=P(L|I)P(G|L)),其中I是图像,G是地理位置,L是ground truth标签。为方便起见,定义似然比R=P(G|L)P(G|\bar{L}),其中\bar{L}表示标签L为假的条件。然后:

  因此,如果条件独立性成立,则后处理网络将是最优的,即如果图像分类器的输出等于P(L|I),且地理定位logits激活等于log(R),则其将输出精确的后验概率P(L|I,G)。对于某些权重集,条件独立性是模型表现最佳的充分条件,但不是必要条件。 

  例如,假设地理位置有时可以根据图像的背景进行估计。在这种情况下,使用贝叶斯先验的模型将重复计算位置证据,根据位置调整分数,即使图像分类器已经将其考虑在内。相比之下,由于后处理模型基于基线图像分类器输出和ground truth之间的残差来训练地理定位网络,因此不会发生重复计数;所学习的地理定位模型仅与基线图像分类器尚未捕获的地理定位证据一样强大。

3.3 特征调制模型

  为了检验地理位置是否能对图像特征学习产生更深层的影响,我们将地理位置信息集成到图像特征中构建了网络。与后处理模型类似,我们使用加法通过地理定位特征调制图像特征。如图3所示,纬度和经度首先经过一组完全连接的层。然后,根据每个图像特征的形状,地理定位网络的输出经过不同大小的完全连接层(无需激活),在添加到图像特征之前进行重塑。从数学上讲,

 图3.使用地理位置来影响图像特征的网络结构。FCL*表示没有激活的FCL,同时带有一个reshape操作,以匹配它要添加到的特征维度。

  其中F和F∗ 是调制前后的图像特征。下标“post act”表示功能在激活后被调制。β是重塑的地理定位特征。

  并非每个图层的所有图像特征都受到地理定位特征的调制。最低级别的图像特征是指定对象线条或边缘的一般特征,它传递的关于物种级别区分的信息很少。因此,我们只调制中等和较高的图像特征,而不是较低的图像特征。我们还尝试了调整所有图像特征的模型,但没有得到更好的结果。

  Perez等人[16]介绍了一种称为FiLM的通用特征调制。具体而言,它们通过乘法和加法调制图像特征,如下所示:

  其中下标“pre act”表示在激活前对特征进行了调制。γ和β是调制特征。在第5.3节中,我们将说明,对于地理感知网络,仅使用加法是调制图像特征的最佳方法。 

4 具有地理位置的细粒度数据集

  在细粒度识别中使用地理位置的一个挑战是缺少具有地理位置信息的细粒度数据集。据我们所知,只有两个细粒度数据集用于该领域的地理定位相关研究[4,12]。在[4]中,作者通过将仅图像数据集中的图像与具有相同地面真值标签的仅地理定位数据集中的随机观测值进行匹配,模拟了地理定位细粒度数据集。ImageCLEF/LifeCLEF竞赛[2],PlantCLEF2016[12]之一的数据集包含部分地理位置信息(不到数据的一半),仅限于来自法国的植物。

  在本节中,我们将介绍两个具有地理位置的细粒度数据集,一个用于训练和评估;另一个仅用于评估。这两个数据集都包含真实(非模拟)和全球地理定位。

4.1 iNaturalist Dataset with Geolocation

  我们介绍了基于2017年FGVC(细粒度视觉分类)上iNaturalist challenge的数据的带有地理定位的iNaturalist细粒度数据集。没有地理定位的挑战数据发布在[23]中,并在挑战页面[3]中提供。基于该数据集的最新分类结果如[7]所示。此数据集包含5089个细粒度标签。为了与现有结果进行比较,我们使用了与[7]中相同的序列/测试分割,其中665473张图像在训练中,9697张图像在测试中。

  为了获得上述数据集的地理位置信息,我们首先将[3]中的图像键映射到观测ID。然后,我们利用来自全球生物多样性信息设施(GBIF)[11]的iNatrualist观测数据,其中包含观测ID和地理位置数据。从图像密钥到观测ID再到地理定位的路径,我们可以为现有的不自然挑战图像找到相应的地理定位信息。

在映射过程中,有∼由于[3]中缺少观测ID或GBIF观测数据中缺少地理位置,4%的图像无法找到相应的地理位置信息。最终的地理定位数据集包含645424张训练图像和9394张测试图像。图4(a)显示了所获得数据集地理位置分布的热图,包括训练和测试数据。这表明我们的产品基于iNatrualist的细粒度地理定位数据集在世界范围内的分布。

图3.地理位置分布(a)是iNaturalist数据集,(b)是YFCC100M细粒度评估数据集

 4.2 YFCC100M Fine-Grained Evaluation Dataset with Geolocation

  YFCC100M数据集由1亿张Flickr图像和视频组成,具有知识共享许可证[21]。对于每幅图像,我们确定了Flickr标签或图像标题,其中包含与第4.1节“iNaturalist”数据集中的5089个细粒度植物和动物物种标签之一对应的标签。由于不自然列表标签都是物种级别的,因此省略了具有多个标签的图像。1362447地理定位图像有一个匹配标签。YFCC100M数据集中的不自然标签高度偏向家畜、切花和动物园动物等流行物种。为了减轻非常常见的标签的影响,我们将评估限制为每个标签最多10个示例。在YFCC100中代表的4721个标签中,3553个标签至少有10个示例。总共使用了36146张标记的地理定位图像。这些图像的地理位置分布热图如图4(b)所示,其覆盖范围与非自然地理位置数据集相似。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值