声明:
1)本文为论文阅读记录,主要用于分享和学术交流
2)若有错误,欢迎各位大牛吐槽,如有版权问题请联系:874870841@qq.com
**
这篇文章是UCLA Vision lab, University of California, 的 jingming Dong, Xiaohan Fei, 以及 Stefano Soatto 的文章,目前还是在arXiv.org.
文章链接如下 :
https://arxiv.org/pdf/1606.03968
该团队有一个类似的工作”VL-SLAM: Real-Time Visual-Inertial Navigation and Semantic Mapping” 发表在CVPR 2016 的demoPoster
相对CVPR2016 的工作,该文章给原来提出的3D bounding box 位置添加了 CAD model.
主要创新点:
通过结合IMU + SLAM + CNN 识别出场景中的物体(类别,尺寸,朝向)
1. 其中VIO 用于场景的定位以及尺度的获取,(例如避免将尺度相差很大的模型车识别成真是的车)
2. CNN (RBG 大神的YOLO)用于语义的识别, 结合几何信息进行3D object 的识别
3. 识别的物体即使被障碍物遮挡,被遮挡物体仍然存在(视频中用虚线框出)(相当于数据关联)
以下是两篇文章的效果:
第一张图为CVPR2016 demoPoster 的效果:
第二张图为CVPR2016 demoPoster 的效果:
两个效果都能区分出玩具车和真是车辆,不仅如此,还恢复出车辆在空间中的位姿。
以下是该文章都是相对 sub-CNN 的定量比较:
相对 sub-CNN 的定性比较:
文章和公式还在阅读和推导中,后续请继续关注!