摘要
细粒度识别根据细微的视觉差异来区分类别。为了区分这些具有挑战性的视觉类别,利用其他信息是很有帮助的。地理定位是一个丰富的附加信息源,可用于提高细粒度分类精度,但尚未得到研究。我们对这一领域的贡献是双重的。首先,据我们所知,这是第一篇系统地研究了通过使用地理定位先验、后处理或特征调制将地理定位信息纳入细粒度图像分类的各种方法的论文。其次,为了克服没有细粒度数据集具有完整地理位置信息的情况,我们发布了两个具有地理位置信息的细粒度数据集,为现有的流行数据集(iNaturalist和YFCC100M)提供补充信息。通过利用地理位置信息,我们将强baseline的“仅图像”模型的在iNaturalist上的top-1精度从70.1%提高到79.0%。通过比较几种模型,我们发现最佳性能是通过一种后处理模型实现的,该模型需要仅图像模型baseline的输出和地理位置。然而,对于资源受限模型(MobileNet V2),通过像素和地理位置联合训练的特征调制模型的性能更好:精确度从59.6%提高到72.2%。我们的工作为在服务器和设备上的细粒度识别模型中结合地理位置信息提供了有力的证据。
1 Introduction
阐述了细粒度识别的挑战。此外,图像的拍摄常常由于不同的角度,不能捕获细微的差异。为了克服这些困难,研究者使用各种形式的补充信息来帮助细粒度识别,例如属性、姿势和文本[25,5,17]
地理位置已经被证实对区分粗粒度类别,例如桥和历史遗迹[20,4]是有用的。但纯粹使用原始纬度和经度(lat/lon)的好处很小,而大部分改进来自于集成额外功能,如与不同地理区域相关的Instagram标签[20]。对细粒度识别来说,另一方面,对于细粒度识别,地理定位可能发挥更大的作用,因为细粒度对象(如图1中的西部灰松鼠)的地理定位分布通常比粗粒度对象(如狗)的地理定位分布更为集中。因此,地理定位可能比一般物体更有效地消除物种的歧义。此外,从视觉上区分细粒度类通常比粗粒度类更难,这也为地理定位等其他正交信号提供了更大的改进空间。
在本文中,我们系统地研究了在细粒度识别问题上使用地理定位的有效性,并表明仅使用原始lat/lon,我们就可以在现有的仅图像模型上实现显著的改进[7]。在细粒度数据集iNaturalist[23](8.9%)上使用原始lat/lon的改进比在粗粒度数据集YFCC100M-GEO[20](7%)上使用6个lat/lon衍生额外特征的改进更大。
具体来说,我们首先研究了使用地理定位先验的直观方法,其中讨论了贝叶斯方法和基于白名单的方法。然后,我们研究了一种后处理方法,其中地理定位网络与logits层的预训练和冻结图像网络相结合。使用该模型观察到显著的改进。最后,我们通过特征调制方法研究了地理位置对图像特征学习的影响,在移动资源受限模型的情况下,该方法明显优于其他方法。
为了证明我们的地理感知模型的有效性,我们引入了两个具有地理位置信息的细粒度数据集。两者都基于现有的数据集,但具有额外的细粒度标签或添加的地理位置信息。
论文的其余部分组织如下。第2节概述了相关工作。第3节介绍了本文研究的三个地理感知网络。第4节介绍了两个具有地理位置的细粒度数据集。然后,第5节展示了实验结果。第6节总结全文。
2.Related Works
细粒度识别:
不同于一般的视觉识别主要是由于以下两个方面:不同的细粒度类别通常只有领域专家才能分辨出的视觉差异很小;很