论文阅读笔记:(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection

本文介绍cvpr 2021的MonoFLEX,论文的着眼点是优化图片边沿被截断物体的3D检测,同时优化了中心点的深度估计。这个方法也是目前(截止2022.01)没有extra traning data的条件下,单目3d目标检测在 kitti-car-moderate上结果最好的方法,每帧35ms也比较快了,技巧比较多,非常值得一看的!

code: https://github.com/zhangyp15/MonoFlexhttps://github.com/zhangyp15/MonoFlexpaper:

http://arxiv.org/abs/2104.02323http://arxiv.org/abs/2104.02323

精度对比(截止2022.01):

KITTI Cars Moderate Benchmark (Monocular 3D Object Detection) | Papers With Codehttps://paperswithcode.com/sota/monocular-3d-object-detection-on-kitti-cars

主要观点、结论和思考:

1. 有遮挡/截断的物体和正常的物体要分开对待;

实现方法:

1. 对于3D框中心点投影的预测: 完全在画面里面的obj,直接预测3D框中心点投影及其修正值;对于在部分在画面外的obj, 预测2D框中心和(画面外)3D框中心投影的联系与图像边沿的交点及其修正值:

2. edge fusion: 单独把边沿的像素拿出来做attention,提高offset和heat map的精度

3. visual properties regression: 2D框,朝向和中心点,都是常规方法;

4. depth:

        4.1 keypoint 估计:估计一共10个关键点:3D框8个顶点和上框面、下框面在图片中的投影到x_r的offset

        4.2 adaptive depth ensemble: 把直接预测的深度和通过关键点计算的深度,用不确定性进行加权平均。用关键点进行深度估计如下面左图,ensemble的方式见下面右图:

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值