University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization
阅读笔记 2022-1-26
1.Abstract
1.1 研究目的or意义
考虑到跨视角定位问题最大的挑战是模型在学习针对大视角变化的稳定性特征
现存的基准可以提供帮助,但是视角有限,提出将无人机作为第三方平台作为一个视角点
1.2研究创新点
University-1652数据集包含了1652个高校的地图,来自三个平台:合成的无人机,卫星图,地面相机,可以实现两个新任务--无人机视觉定位以及无人机的视觉导航。
1.3研究结论
研究表明,University-1652模型可以很好的学习视角不变的特征,并在现实场景中具有很好党的泛化性能
2.Introduction
2.1 前人研究or现存研究的缺点
传统的交叉地理定位数据集来自手机视角与卫星图,两者的视觉差异较大,匹配程度困难。
2.2 Present Work
(1) Introduce a multi-view dataset to learn the viewpoint-invariant feature and bridge the visual appearance gap.
译:引入一个多视角的数据集去学习视角不变特征并缩小视觉外观的差异
(2) Design effective methods that fully exploit the rich information contained in multi-view
data.
译:设计有影响力的方法,这个方法可以充分录用丰富的包含在多视角中的信息
3.UNIVERSITY-1652 DATASET
3.1 Dataset Description
For the drone-view images, due to the unaffordable cost of the real-world flight, we leverage the 3D models provided by Google Earth to simulate the real drone camera.
对于无人机视角,由于无法承担真实世界的飞行成本,我们采用谷歌的3D模型来模拟无人机视角。
3.2University-1652’s features
l多源
l多视角
l每一类有很多照片
4.交叉图像视觉匹配
4.1 网络结构和损失函数
1. 网络结构
lFs、Fd、 Fg:映射卫星图片、地面、无人机的输入图片
ltwo-branch CNN——learn the projection functions
lSince our dataset contains data from three different sources, we also extend the basic model to the three-branch CNN to fully leverage the annotated data
译:因为我们的数据集来自三源,我们将基本的模型扩展到三分支的CNN模型
2.损失函数
将每个地方的多元图像作为一个数据集
分类损失:Instance loss
The main idea is that a shared classifier could enforce the images of different sources mapping to one shared feature space.
译:共享分类器可以将不同源的图片匹配到一个共享的特征空间
xs , xd , and xg as three images of the location c, where xs , xd , and xg are the satellite-view image, drone-view image and ground-view image,
P(c) is the predicted possibility of the right class c(location c)
Wshare 是最后一个分类层的权重
将Wshare作为一个线性分类器 优化
优化后,不同的特征空间与分类空间对应
5.实验
5.1实验操作细节
1.采用ResNet-50预训练我们的ImageNet数据集,作为我们的基准模型(参数模型)
2.去掉原始的分类器,在池化层加入一个512-dim的全连接层和一个分类层
3.测试时,用已经训练好的模型去提取不同源的相关的特征
4.余弦距离用来计算库中的查询和候选图像的相似度,反馈的结果根据相似度进行排列
5.使用模型三(三分支的CNN网络)可以充分利用标记的数据进行
5.2地理定位结果
测试A——B
1.两类特征点的对比
our basic model achieves much better performance with the shorter feature length,which verifies the effectiveness of the proposed baseline.
2.地面视角 VS 无人机视角
3.多视角问题
Conclusion; the target localization using the drone-view queries still achieves better performance than ground-view queries the target localization using the drone-view queries still achieves better performance than ground-view queries
5.3 Ablation Study and Further Discussion
1.Ablation Study (消融研究):删除论文中分某些方法,简单来讲,可以看作是控制变量法
2.The result suggests that sharing weights could help to regularize the CNN model.
第一次做论文笔记若有不足,请大家指出!谢谢