Task-Aware Monocular Depth Estimation for 3D Object Detection

最新推荐文章于 2023-07-18 11:33:01 发布

Harrylin、

最新推荐文章于 2023-07-18 11:33:01 发布

阅读量608

点赞数

分类专栏：单目深度估计文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_41134246/article/details/107980318

版权

单目深度估计专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Task-Aware Monocular Depth Estimation for 3D Object Detection

作者：XinlongWang, Wei Yin, Tao Kong, Yuning Jiang, Lei Li, Chunhua Shen
机构：The University of Adelaide, Australia、Bytedance AI Lab
出处：AAAI 2020

主要贡献

分析前景背景对深度估计分别的影响，将两者区别对待
提出ForeSeE模块
在效果上将ForeSeE应用到3D物体检测中AP值提升7.5

写作笔记

ill-posed problem：不存在唯一解的问题
Plausible results：合理的结果
catastrophic：灾难的
not the case for：不是因为
interdependent：相互依赖的
handcrafted：人为精心设置的
MDE(Monocular Depth Estimation)：单目深度估计
optic flow：光流
poses a substantial challenge：带来巨大的挑战
shared similarities：共同点
pseudo-LiDAR：伪雷达点云(通过深度图得到的点云)

实验发现

比较前景和背景的区别：

前景更容易聚合成一个整体并且有更大的深度变化，背景更趋于平坦
前景像素值占全图较小一部分（KITTI 90.6%像素属于背景）
在实际应用中前景显然比背景要更为重要，比如在自动驾驶等任务

比较前景和背景分布和梯度的区别：

75%的前景像素的深度小于16m，而背景像素是50%。前景像素的深度分布符合长尾分布。
前景区域像素在中、高梯度的占比大于背景像素

对前景和背景像素分开优化：
$L=\lambda \times \frac{1}{N_{f}} \sum_{i}^{N_{f}} E\left(y_{i}, \hat{y}_{i}\right)+(1-\lambda) \times \frac{1}{N_{b}} \sum_{i}^{N_{b}} E\left(y_{i}, \hat{y}_{i}\right)$
$\lambda=0.7$ 对于前景最好，但是背景效果又变得比较差；当 $\lambda=0/1$ 时，即只有背景和前景时，它们并没有达到最好的水平，说明两者可以互相促进。
分析总结

前景和背景有不同的深度值分布、梯度分布和形状模式
前景和背景可以相互促进，因为它们之间有共同点
前景和背景的优化目标不匹配

ForeSeE 模块

为了使得前景和背景优化既有区分，又能共同优化得比较好。作者提出了三个因素来对其进行优化：

SO(separate objectives)：分离背景和前景区域。在训练中分离两个分支分别预测前景和背景的深度值，并根据前景预测的深度值裁剪出前景区域（矩形的mask），与背景深度图无缝融合
SD(separate decoders)：分开预测背景和前景深度。
FSL(foreground-background sensitive loss)：为了利用好前景和背景相互促进的特点，在分别计算两者损失时，加上对方的权重和计算的Errors
在inference时，不再进行crop mask进行融合的操作，而是直接进行Max操作。速度更快效果只有0.001的下降。