【文献阅读】Multi-Level Fusion based 3D Object Detection from Monocular Images

这是一篇CVPR2018的文章,对于Faster RCNN相关知识暂未深入了解,待之后补充。本文按阅读顺序来进行梳理,有些疑惑待自己理解后再作答。


在这里插入图片描述

一、文章贡献

  1. 贡献一种高效的基于多层融合的三维目标检测方法,该方法具有独立的估算视差信息模块(猜测:"独立"的意思是可以单独训练;由图可知,视差信息模块可以提供depth信息以达到视差特征+原始RGB图像融合;
  2. 提供了一个通用的框架,同时实现2D和3D目标检测,且该框架可以直接通过现有的region-based 2D方法实现扩展;
  3. 端到端学习用于估计三维物体的完整姿态、尺寸和位置,不需要任何其他附加注释或三维物体模型;(个人比较喜爱,不需要额外的3D模型进行辅助训练实现特征点捕捉等)
  4. KITTI数据集上实现单目检测SOTA性能,并能在某些特定指标上优于一些基于立体信息(stereo information)的方法。

二、方法概览 overview

2.1 Objectives

  • 2D object detection (类别、box位置、box尺寸)
  • 3D object detection (位置、方向、尺寸)

2.2 Network

结合模型结构图来理解

  • Region proposal network (RPN):输入-RGB图像、深度信息的前视图表征,输出-RoIs;
  • 2D detector:输入-2D proposals,输出-object class confidence、2D bounding box (offset);
  • orientation&dimension branch:jointly learn
  • disparity module
  • 3D location:输入-point cloud information、stream,输出-3D location

三、Related work

入门看,若熟知可以直接跳过

2D Object Detection

  • one-stage methods: YOLO, SSD, OverFeat
  • two-stage / proposal-driven methods:
    • proposal generation: BING, Selective Search, EdgeBoxes, DeepMask, RPN
    • the most famous: Faster RCNN, which can generate proposals and apply object recognition in an endto-end fashion

作者谈到 two-stage 方法的优点:比起单阶段算法,它需要更少的数据增强技巧,并且在大多数公共基准测试中具有更准确的结果

Monocular 3D Object Detection

[1] Monocular 3d object detection for autonomous driving
假设所有的物体都应该靠近地平面,而地平面应该与成像平面正交。然后,利用类分割、实例级分割、形状、上下文特征和位置先验,在图像平面上对三维目标候选对象进行全面评分.
[2] 3D Bounding Box Estimation Using Deep Learning and Geometry
Deep3DBox将几何约束引入到三维物体检测场景中。它是基于三维边界盒应该与二维检测边界盒紧密贴合的事实,因此要求二维边界盒的每边至少接触到一个三维盒角的投影。
[3] Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image
使用一个三维车辆数据集,该数据集由具有真实尺寸的三维网格组成,每个三维模型都有几个顶点注释。Deep MANTA中的车辆部件识别视为额外关键点检测,采用该方法与最相似的3D模板进行2D / 3D匹配,从而获得3D定位结果。

四、Framework

所提出的框架是一个端到端网络,以单目图像作为输入,输出2D/3D目标表征。该系统主要包括两个部分:二维区域建议生成和二维/三维参数估计。

3.1 2D region proposal generation

利用Faster R-CNN中引入的区域提议网络(RPN)提取感兴趣区域RoI,以执行进一步的检测任务。在RPN中,通过在卷积特征映射上的一个滑动小网络和锚点机制[31]生成一组具有目标评分的候选区。2D anchors是在每个位置的一个基本矩形上用预定义的尺寸和长宽比生成的。然后网络通过目标评分预测和二维包围框回归输出proposals。

3.2 2D/3D Parameters Estimation

2D: multi-class classification 以及 2D box regression,参考Faster R-CNN
3D: orientation estimation, dimension estimation 以及 3D localization

受Faster R-CNN启发,box regresssion和classification用的是同一共享特征,本文也利用这个共享特征添加两个额外的任务分支:3D orientation regression、3D dimension regression。3D regression通过 Multibin 结构实现,3D dimension regression通过估计长宽高的偏移量实现(在训练集上获得每个类的平均大小作为典型尺寸)。

3.3 Multi-Level Fusion and 3D Localization

Disparity information

使用了MonoDepth网络,并且直接使用了人家的权重,训练中不做任何更新,所以才说是stand-alone,独立于这个模型之外 😃 通过该模块可以计算出3D coordinates.

Estimation Fusion for 3D

  • Region proposals + Depth => point cloud
  • point cloud with RoI Mean Pooling + Region proposals with RoI Max Pooling => Fusion

Input Fusion with Front View Feature Maps Encoding

Feature Fusion for Accurate Estimation

总结

文章除了使用多层级融合以外,也借鉴了Faster R-CNN、MultiBin、MonoDepth等多个框架,实现了3D目标检测。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息转换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值