本文介绍cvpr 2021的MonoFLEX,论文的着眼点是优化图片边沿被截断物体的3D检测,同时优化了中心点的深度估计。这个方法也是目前(截止2022.01)没有extra traning data的条件下,单目3d目标检测在 kitti-car-moderate上结果最好的方法,每帧35ms也比较快了,技巧比较多,非常值得一看的!
code: https://github.com/zhangyp15/MonoFlexhttps://github.com/zhangyp15/MonoFlexpaper:
http://arxiv.org/abs/2104.02323http://arxiv.org/abs/2104.02323
精度对比(截止2022.01):
主要观点、结论和思考:
1. 有遮挡/截断的物体和正常的物体要分开对待;
实现方法:
1. 对于3D框中心点投影的预测: 完全在画面里面的obj,直接预测3D框中心点投影及其修正值;对于在部分在画面外的obj, 预测2D框中心和(画面外)3D框中心投影的联系与图像边沿的交点及其修正值:
2. edge fusion: 单独把边沿的像素拿出来做attention,提高offset和heat map的精度
3. visual properties regression: 2D框,朝向和中心点,都是常规方法;
4. depth:
4.1 keypoint 估计:估计一共10个关键点:3D框8个顶点和上框面、下框面在图片中的投影到x_r的offset
4.2 adaptive depth ensemble: 把直接预测的深度和通过关键点计算的深度,用不确定性进行加权平均。用关键点进行深度估计如下面左图,ensemble的方式见下面右图: