论文阅读笔记:(2020.06 cvpr_w) SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

单目3D目标检测算法对自动驾驶领域非常重要,SMOKE是2021年CVPR workshop的文章,精度在kitti上排名前列,能实现实时推理,且代码开源,最近也被baidu apollo7.0集成到了感知模块,非常值得学习!

paper: https://openaccess.thecvf.com/content_CVPRW_2020/html/w60/Liu_SMOKE_Single-Stage_Monocular_3D_Object_Detection_via_Keypoint_Estimation_CVPRW_2020_paper.htmlhttps://openaccess.thecvf.com/content_CVPRW_2020/html/w60/Liu_SMOKE_Single-Stage_Monocular_3D_Object_Detection_via_Keypoint_Estimation_CVPRW_2020_paper.html代码:https://github.com/lzccccc/SMOKEhttps://github.com/lzccccc/SMOKE

精度对比(截止2022.01):

(KITTI Cars Moderate Benchmark (Monocular 3D Object Detection) | Papers With Code)

主要观点和贡献:

1. 认为检测2D框会给3D检测带来噪声,是冗余的,所以用Keypoint的方式直接回归3D框;

实现方式:

a. backbone: 基于DLA-34进行改造, 用了DCN和GN进行改造;

b. head:

关键点分支:每个类别一层;

3d box: 预测, 其中:

 c. loss:

关键点分支:penalty-reduced focal loss:

3d box 分支:

把预测的三个量分为三组(比如中心点, 尺寸, yaw,具体我要看一下代码);

每组中其余的值用gt, 然后再转换成3d框的8个点,在放到L_reg中;

目的应该是把预测的量解耦,降低预测难度;

文中提到的一些比较有价值的参考文献(个人认为):

(2019 iccv) Disentangling Monocular 3D Object Detection

(2019 cvpr) ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值