概述
本文是基于双目图像的3D目标检测方法。(双目方法所以看的不太仔细)
【2020】【Disp R-CNN】
研究的问题:
- 以往的工作估计整张视差图,计算量大,且视差估计网络与检测网络是分离的,模型无法使用类别具体的先验信息
- 训练中视差标注不足
提出的方法:
- 提出一个端到端实例级别的视差估计网络,只在ROI上进行视差估计
- 使用统计形状模型而非激光雷达生成密集的视差标注
细节
网络结构
以下是流程:
- 使用Mask R-CNN的变体做实例分割以及目标检测,得到ROI
- 使用作者的实例视差估计网络对ROI进行视差估计
- 将视差估计的结果转换成伪点云
- 使用基于点云的3D目标检测算法进行检测
实例视差估计网络
以往的工作:
直接采用视差估计网络,而这些视差估计网络是通用的,而非专门为3D目标检测设计的,因此就会带来一些问题:
- 计算量大,前景部分占据的空间通常会比背景少很多很多
- 无法使用类别具体的先验信息,网络估计整张图片的视差,会使得网络的关注点过多,在我们真正需要的ROI上,效果没那么突出
作者的工作:
在视差估计网络之前接一个分割网络,然后使用mask之后的输入作为视差估计网络的输入