https://arxiv.org/pdf/1811.08188.pdf
目录
1.摘要
单目3D检测是比较有挑战的任务,领先系统的性能尚未达到基于激光雷达的同类系统的10%。有人认为是基于透视图像的表示,物体的外观和尺寸随深度而剧烈变化,很难推断出有意义的距离。作者认为感知3D世界是3D检测的基本能力。(否定前面其他人的猜想)
提出一种orthographic feature transform(正交特征变换),可以将图像的特征映射到正交3D空间。在KITTI 3D object benchmark数据集上取得了当时的SOTA。
2.介绍
预测、避障和路径规划都依赖于场景中其他实体的3D位置和尺寸的鲁棒估计。较多方法采用丰富的Lidar点云信息,基于图片的方法落后很多。本文提出一种新颖的方法,通过单目图像就能生成高质量的3D检测框。
单目3D系统的难点:透视投影意味着单个物体的比例随着距离相机的距离而显著变化;其外观可以根据视点而急剧改变;并且不能直接推断3D世界中的距离。
提出正交特征变换(OFT):将从透视RGB图像中提取的一组特征映射到正交鸟瞰特征图的可微变换。
主要贡献:
(1)提出正交特征变换(OFT)
(