论文阅读笔记：(2021.06 cvpr) Objects are Different: Flexible Monocular 3D Object Detection

chaoqinyou

于 2022-01-30 11:06:04 发布

阅读量2.5k

点赞数

分类专栏：感知文章标签：目标检测 3d 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chaoqinyou/article/details/122745381

版权

感知专栏收录该内容

19 篇文章

订阅专栏

MonoFLEX是CVPR2021提出的一种单目3D目标检测方法，在KITTI Car Moderate基准上表现最佳。该方法针对被截断物体进行了优化，并改进了中心点深度估计，通过edgefusion和visual properties regression等技术提高检测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍cvpr 2021的MonoFLEX，论文的着眼点是优化图片边沿被截断物体的3D检测，同时优化了中心点的深度估计。这个方法也是目前（截止2022.01）没有extra traning data的条件下，单目3d目标检测在 kitti-car-moderate上结果最好的方法，每帧35ms也比较快了，技巧比较多，非常值得一看的！

code: https://github.com/zhangyp15/MonoFlexhttps://github.com/zhangyp15/MonoFlexpaper:

http://arxiv.org/abs/2104.02323http://arxiv.org/abs/2104.02323

精度对比（截止2022.01）：

KITTI Cars Moderate Benchmark (Monocular 3D Object Detection) | Papers With Codehttps://paperswithcode.com/sota/monocular-3d-object-detection-on-kitti-cars

主要观点、结论和思考：

1. 有遮挡/截断的物体和正常的物体要分开对待；

实现方法：

1. 对于3D框中心点投影的预测: 完全在画面里面的obj，直接预测3D框中心点投影及其修正值；对于在部分在画面外的obj，预测2D框中心和（画面外）3D框中心投影的联系与图像边沿的交点及其修正值：

2. edge fusion: 单独把边沿的像素拿出来做attention，提高offset和heat map的精度

3. visual properties regression: 2D框，朝向和中心点，都是常规方法；

4. depth:

4.1 keypoint 估计：估计一共10个关键点：3D框8个顶点和上框面、下框面在图片中的投影到x_r的offset

4.2 adaptive depth ensemble: 把直接预测的深度和通过关键点计算的深度，用不确定性进行加权平均。用关键点进行深度估计如下面左图，ensemble的方式见下面右图：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。