【领域报告】2017以来的2D to 3D | VALSE2018

 
 

编者按:虚幻与现实,自古便引发了人们无穷的想象,古有庄子的“庄生晓梦迷蝴蝶”,近有《红楼梦》中“假作真时真亦假,无为有处有还无”的太虚幻境。

而随着科技发展至今,我们终于可以通过计算机视觉技术,来填补虚拟世界与现实世界之间的鸿沟,因而衍生出了VR、AR、SLAM等技术,以将二维世界投影到三维世界。

本文中,来自中科院自动化所的吴毅红研究员,将介绍2017年以来的2D to 3D计算机视觉进展。文末,大讲堂提供文中提到参考文献的下载链接。

640?wx_fmt=jpeg 640?wx_fmt=png

本次报告分成五部分:前言、图像匹配、视觉定位、三维重建、发展趋势。

640?wx_fmt=jpeg

三维视觉应用最近几年比较火热,已经从传统工业走入AR、VR、机器人领域。2016年迎来了一波VR,AR应用的热潮,但很不幸到2016年底,VR迎来寒冬,一些VR公司纷纷倒闭关门。但是,自2017年以来一直到现在,无人驾驶、机器人、AGV、3D摄像头异常火爆。2017年6月5日苹果发布ARKit,2017年8月谷歌发布ARCore,9月13苹果手机iPhoneX中采用3D深度摄像头,10月19三星宣布与谷歌合作,将ARCore引入三星手机。2018年3月,腾讯成立机器人实验室Robotics X,张正友老师主持实验室工作,张正友老师是世界上杰出的三维计算机视觉科学家。

640?wx_fmt=jpeg 640?wx_fmt=jpeg

图像匹配的过程首先是对图像进行特征检测,然后进行描述子提取,最后算出距离进行匹配。而在图像匹配领域,传统设计的描述子逐渐被学习型描述子取代,深度学习成为主流趋势;在特征检测方面,深度学习展现了它的魅力;然而在实际落地应用中,仍然以传统设计方法为主。在特征检测方面,有两个代表性的工作,CovDet和AffNet,都是采用CNN对协变参数进行学习。

640?wx_fmt=jpeg

在描述子工作方面,第一个工作是L2Net,第二个工作是DeepCD,第三个是Spreed-out,第四个是HardNet。在特征匹配方面有两个比较显著的工作,一个是基于图像网格化,加入平滑优势,使得匹配方法在视频上能够达到实时的速度。第二个工作是对于2008年PAMI上的方法进行改进,在08年工作中要依赖参数,这些参数难以调取。在CVPR2017的SGM-Nets方法中则采用神经网络方法对该参数进行估计。

640?wx_fmt=jpeg

那么在涌现的众多描述子中,我们如何来选择呢?在CVPR2017同时出来的两篇文章中对于描述子进行了测评,在第二个方法中提出新的数据库HPatches,它在数据质量上较Brown数据库进一步提升。它对于所有相关方法,例如手工描述子、以及最近几年的深度学习描述子都进行测评,最终得出结论:传统的手工描述子SIFT的性能要优于深度学习描述子性能。

640?wx_fmt=jpeg 640?wx_fmt=jpeg
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值