页式地址重定位模拟_【新无人机数据集】从 行人重识别 到 无人机目标定位

528c3b0024472f2cc3d838e1d63d9cc5.png

论文题目:University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization (ACM Multimedia 2020)

论文地址:https://arxiv.org/abs/2002.12186

代码地址:https://github.com/layumi/University1652-Baseline

PPT: http://zdzheng.xyz/ACM-MM-Talk.pdf

数据集下载:填写 Request 发送到 Zhedong.Zheng@student.uts.edu.au

84ed4efb40540af34d673ea9ba996451.png

简介(与行人重识别的关系):

  • 随着无人机的发展,无人机视角的目标定位是一个基本的任务,透过无人机视角图像与卫星图像相结合,来判断目标建筑的位置,可用于无人机精准快递(送口罩),农业等等。
  • 主要难点与行人重识别任务一致,为跨视角的图像匹配。在行人重识别任务中为跨摄像头匹配,而在无人机定位任务中为垂直方向的视角匹配(街景<-> 无人机 <-> 卫星)
  • 行人重识别目前发展得比较好,数据集也被大家刷很高; 而geo-localization这个任务才刚刚开始,匹配难度较高,做的空间还比较大。
  • 行人重识别在隐私政策上有一些考虑,采集了人体的生物信息;而无人机的建筑定位相对科研伦理/隐私上的问题比较小。

主要任务描述:

  • 任务1 - 无人机视角目标定位 (Drone-> Satellite) :给定一张无人机视角的图片或者视频,这个任务是去找最相似的卫星图,卫星图往往有gps所以就可以对无人机中的目标定位。
  • 任务2 - 无人机导航 (Satellite->Drone): 给定一张卫星视角的图,无人机尝试去找他飞过的地方(无人机视角的图)。如果找到就按照飞行历史,再飞回去,完成一个导航的操作。

数据采集:

  • 我们利用了wiki 来找到了 72所大学的建筑名称,去除其中的广场,campus,以及一些google map上找不到的地点。下图展示了前100个building名称(https://en.wikipedia.org/wiki/Category:Buildings_and_structures_by_university_or_college)

7a3a59457e8459ee1a9c133f8eed94c7.png
  • 我们利用google earth去模拟无人机视角的图像,如下面这个视频,采用一个螺旋形的方式接近建筑
99c1f511a99fc949862fdadf2349b134.png
https://www.zhihu.com/video/1218843830327353344
  • 同时对于每个建筑,我们还收集了卫星图,和google map的街景图。

3780575931e06a4ee43c2a588bd7c433.png
  • 之前的数据集往往只收集地面和卫星的image pair。我们则提供了无人机视角图像作为中间的媒介,同时无人机可以减少树木的遮挡,更容易与卫星图做匹配。(下表为training set的对比)

7b0bf2a4e253999e449a089611c76359.png
  • 我们数据集的统计数据如下:(训练和测试分别是33 和 39所大学,共72所大学,没有overlap)

5f0f92a51918ace2e07cc51c430b7ed9.png

数据license:

  • 我们按照Google的官方Guideline进行research的release
  • 同时也依照之前的一些项目 如 Tokyo 24/7 和 CVUSA等数据集采用学校邮箱的方式来发布数据。

基准测试:

  • 主要采用了我之前文章的instance loss,这篇文章是2017年11月放的,最近中了ACM TOMM 2020 用来做图文互搜的,大家有兴趣可以康康,可以用来分类几万类。
郑哲东:用CNN分100,000类图像​zhuanlan.zhihu.com
e6fd2901a2f7bd9d4cf57869ed768461.png
  • 主要思想就是把最后分类层的weight 共享,但是前面的特征提取网络还是各归各的。
  • pytorch 代码在 https://github.com/layumi/University1652-Baseline/blob/master/model.py#L230-L253 前面model可以不一样,最后classifier都用同一个。
  • 提供一个baseline, 一方面来验证数据集的有效性,一方面给大家提供一个基础的code,方便大家来修改。

实验结果:

实验结果分几个方面验证:

  1. 无人机视角是不是比街景定位更好,因为遮挡物更少,同时,无人机还有一个优势就是能拍到屋顶。实验验证了这一点。

56b6b5b7fbdd37c84bc97bcc506fdffb.png

2. 我们学到的特征是不是比general的特征从大数据集中学到的好。

7324c7a18fa9adc17a7824a06378cbc1.png

3. 定性结果:(左边无人机目标定位; 右边无人机导航)

4c22c7206e247ef306e86db90f1b4f50.png

4. 我们的模型能不能拿去在真实的无人机视频中运用呢?

我们分了两个实验, 真实无人机图像搜我们模拟无人机图像:

64673401bc3503d906684dd2021e7c97.png

和 真实无人机图像搜 卫星图:

aa64c4a12d332972eca3fbfd107c4c5c.png

可以看到还是很work的。

5. 对比几个常用baseline,包括contrastive loss, triplet loss等:

160b351ba9203552e0d38b7eb4af93de.png

6. Instance loss 在其他数据集上(都用VGG16):

529fe7d0668cf0e6853143036d5edb66.png

7. 迁移到传统小的图像检索数据集:

27d84a8180c8ee86ab01f2f706e7dfcd.png

其中Fs是学卫星图+无人机图的子网络, Fg是地面图的子网络。我们猜想,Fs学的是垂直方面的变化,Fg学的还是水平方向的变化,所以针对传统建筑数据集,地面上拍摄的,还是地面的网络Fg更好一些。

最后我们提供了一些数据集中的样本,大家可以点开看看~

代码地址:https://github.com/layumi/University1652-Baseline

[探索无人机图像]​github.com [探索卫星图]​github.com [探索街景图]​github.com

感谢大家读完,欢迎讨论~~也可以check我的一些其他文章

郑哲东:NVIDIA/悉尼科技大学/澳洲国立大学新作解读:用GAN生成高质量行人图像,辅助行人重识别

郑哲东:用CNN分100,000类图像

郑哲东:利用Uncertainty修正Domain Adaptation中的伪标签

Pytorch有什么节省显存的小技巧?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值