Mono3D
文章平均质量分 93
关于单目 3D 视觉算法
calvinpaean
Carpe diem.
展开
-
Monocular 3D Object Detection with Depth from Motion 论文学习
类似地,时序上相邻的两帧画面也具有立体匹配关系,但它们的 baseline 是不固定的,依赖于相机的帧间运动。立体深度估计和单目深度估计的底层逻辑是不同的:立体估计依赖于匹配,而单目估计则依赖于数据驱动的先验信息,和对一张图像的语义与几何信息的理解。如上所述,有一些场景是立体估计也无法处理的。因此,受到双目方法的启发,作者将复杂的几何关系包含在一个 plane-sweep cost volume 里面,作为立体匹配的替代方案:考虑到我们无法直接从视差估计深度,于是为每个像素点提供候选的深度值,将这些。原创 2023-07-18 11:16:42 · 479 阅读 · 0 评论 -
MV-FCOS3D++ Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones 论文学习
对于多视角相机画面的 3D 检测任务,基于 BEV 和 3D 几何表征的方法可以利用相邻视角重叠区域的立体信息,无需人工后处理即直接进行 3D 检测。它包含一个简单的单目检测器 FCOS3D++,只在 Waymo 标注上预训练,然后将多视角特征转换为 3D 网格空间,再去检测 3D 目标。如下图所示,给定从连续帧提取的体积特征,将其变换到当前帧的自车坐标系下,将它们沿着特征通道 concat,得到。得到 3D 体素特征后,作者使用了多个由 3D 卷积网络组成的残差模块,聚合 3D 空间信息,沿着。原创 2023-07-18 11:22:44 · 149 阅读 · 0 评论 -
MonoDTR Monocular 3D Object Detection with Depth-Aware Transformer 论文学习
如下图(a),Pseudo-LiDAR 方法通过单目深度估计将图像升成 3D 坐标,将预测的深度图转换为 3D 点云,模拟 LiDAR 信号,然后用 LiDAR 检测器来做 3D 目标检测。如下图(b),另一类基于融合的方法则使用多种融合策略,从图像和预测的深度图提取特征,然后将深度特征和图像特征融合,以检测目标。是深度类别(bins)的个数。本文提出了一个端到端的单目 3D 检测算法,MonoDTR 是一个通晓深度信息的 transformer 网络,避免了大计算量和由深度估计带来的不准确的深度先验。原创 2023-07-18 11:33:01 · 684 阅读 · 0 评论 -
CenterNet Objects as Points 论文学习
现有的检测方法大多会穷举所有潜在的目标位置,然后做分类。这类后处理操作是不可微的,训练起来比较困难,因此大多数的检测器的训练并不是端到端的。本文将目标检测建模为关键点预测问题,通过关键点预测得到中心点位置,然后回归出所有的属性,如尺寸、3D 坐标、朝向角,甚至姿态。对于 3D 框预测,CenterNet 回归目标的绝对深度、3D 框的维度和朝向角。用可变形卷积增强跳层连接。3D 检测预测每个目标的三维框,需要为每个中心点提供三个额外的属性:深度、3D 维度和朝向角。对于所有的类别,该偏移量的学习是一样的。原创 2023-07-18 11:03:46 · 192 阅读 · 0 评论 -
ImVoxelNet 论文学习
FCOS head 的输入是 FPN 的 2D 特征,然后通过 2D 卷积层预测 2D 框。将 3D 空间的 3D 目标检测降低为 BEV 平面的 2D 检测问题。Head 的输入是一个 2D 特征图,所以我们应该从 3D 体素 volume 中获取一个 2D 表征。为了融合不同输入的信息,作者构建了一个 3D 空间的体素表征,然后从该 3D 特征图做最终的预测,类似于点云检测的方式。而本文使用的是密集的体素表征,于是作者受到 FCOS 启发,构建了一个 head 可以完成多尺度的 3D 目标检测。原创 2023-07-18 11:27:38 · 427 阅读 · 0 评论 -
DID-M3D 论文学习
单目 3D 检测成本低、配置简单,对一张 RGB 图像预测 3D 空间的 3D 边框。最难的任务就是预测实例深度,因为相机投影后会丢失深度信息。以前的方法大多直接预测深度,本文则指出 RGB 图像上的实例深度不是一目了然的,它由视觉深度信息和实例属性信息耦合,很难直接用网络学到。原创 2023-05-22 14:19:42 · 715 阅读 · 0 评论 -
CaDDN 论文学习
单目 3D 目标检测是自动驾驶的重要课题,与一般的多传感器系统相比,它具有简洁、成本低、易部署的优点。单目 3D 检测的主要挑战在于能否准确预测目标的深度。由于缺乏直接的测量手段,我们只能从目标和场景信息推断,因此单目 3D 检测的表现远落后于 LiDAR 和双目视觉的方案。一些单目目标检测方法会单独训练一个深度估计网络,直接学习深度信息。但在 3D 检测阶段,它们直接使用估计的深度信息,缺乏对深度置信度的理解,网络对预测的深度值过于相信,造成模型对于大尺度范围的深度估计不准确。原创 2023-05-21 15:01:22 · 709 阅读 · 0 评论 -
FCOS3D Fully Convolutional One-Stage Monocular 3D Object Detection 论文学习
全卷积单阶段检测器一般包括三个组成:用于特征提取的主干网络、多层级分支的 necks 和做密集预测的 heads。原创 2023-05-04 09:13:44 · 659 阅读 · 0 评论 -
Probabilistic and Geometric Depth: Detecting Objects in Perspective 论文学习
论文地址:Probabilistic and Geometric Depth: Detecting Objects in PerspectiveGithub 地址:Probabilistic and Geometric Depth: Detecting Objects in Perspective1. 解决了什么问题?3D 目标检测在许多应用中发挥着重要作用,如驾驶辅助系统。单目 3D 检测的成本要比依赖 LiDAR 的方案低,但是效果都比较差。难点在于,模型的输入是 2D 数据,但是输出却是 3D原创 2023-05-04 09:39:39 · 834 阅读 · 0 评论 -
SMOKE Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文学习
论文地址:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint EstimationGithub 地址:https://github.com/open-mmlab/mmdetection3d/tree/main/configs/smoke1. 解决了什么问题?预测物体的 3D 朝向角和平移距离对于自动驾驶感知非常重要。现有的单目视觉方法主要包含两个部分:生成 2D 区域候选框的网络;基于生成的感兴趣区域,预测 3D 目标姿态原创 2023-05-04 19:21:02 · 542 阅读 · 0 评论