HHHHGitttt-CSDN博客

原创 DID-M3D: Decoupling Instance Depth forMonocular 3D Object Detection | 全文翻译

通过在KITTI上的评估，我们的方法实现了新的最先进的结果，并通过广泛的消融研究验证了方法中每个组件的有效性。我们在图 1 中举例说明。对于物体上的每个点（或小块），视觉深度表示朝向代理（汽车/机器人）摄像头的绝对深度，而我们将属性深度定义为该点（或小块）到物体三维中心的相对深度偏移。因此，属性深度与视觉深度无关，而解耦实例深度允许我们使用单独的头为不同类型的深度提取不同类型的特征。如图 1 所示，对于右侧物体，其实例深度是汽车尾部深度与汽车半长之和，其中汽车长度是模糊的，因为汽车的左右两侧都是不可见的。

2024-08-13 00:09:15 1210

原创 CVPR2021 | DETR3D:3D Object Detection from Multi-view Images via 3D-to-2D Queries论文翻译

我们介绍了一种多摄像头三维物体检测框架。与直接从单目图像估算三维边界框或使用深度预测网络从二维信息生成三维物体检测输入的现有工作相比，我们的方法直接在三维空间中操作预测。我们的架构从多个摄像头图像中提取二维特征，然后使用稀疏的三维物体查询集对这些二维特征进行索引，利用摄像头变换矩阵将三维位置与多视角图像联系起来。最后，我们的模型对每个物体查询进行边界框预测，并使用集对集损失来衡量地面实况与预测之间的差异。

2024-03-14 15:27:31 1376

原创 ECCV2022 | BEVFormer原文翻译

三维视觉感知任务，包括基于多摄像头图像的三维检测和地图分割，对于自动驾驶系统至关重要。在这项工作中，我们提出了一个名为 BEVFormer 的新框架，它利用时空变换器学习统一的 BEV 表征，以支持多种自动驾驶感知任务。简而言之，BEVFormer 通过预定义的网格状 BEV 查询与空间和时间进行交互，从而利用空间和时间信息。为了聚合空间信息，我们设计了空间交叉关注，使每个 BEV 查询都能从跨摄像头视图的感兴趣区域提取空间特征。对于时间信息，我们提出了时间自关注，以反复融合历史 BEV 信息。

2024-03-14 15:15:27 1704

原创 CVPR2023 | 3D Data Augmentation for Driving Scenes on Camera

驾驶场景极其多样和复杂，仅靠人力不可能收集到所有情况。虽然数据扩增是丰富训练数据的有效技术，但自动驾驶应用中现有的摄像头数据扩增方法仅限于二维图像平面，在三维真实世界场景中可能无法最佳地增加数据多样性。为此，我们提出了一种名为 Drive-3DAug 的三维数据增强方法，旨在增强三维空间中摄像头拍摄的驾驶场景。我们首先利用神经辐射场（NeRF）重建背景和前景物体的三维模型。然后，将位置和方向经过调整的三维物体放置在预定义的背景有效区域，就可以获得增强的驾驶场景。因此，可以有效地扩大训练数据库。

2024-03-14 15:08:03 1245

原创 ICCV2023 | MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection

本文提出了一种新颖的室内3D目标检测方法，该方法仅使用RGB图像作为输入。作者提出利用神经辐射场（NeRF）来显式估计3D几何形状，以提高检测性能。他们引入了几何先验来增强NeRF的泛化能力，并通过共享的多层感知器（MLP）连接检测和NeRF分支，使NeRF能够高效地适应检测任务。该方法在基准数据集上超越了现有的最先进方法，并且能够在不进行场景特定优化的情况下很好地泛化到未见过的场景。文档提供了相关工作的概述，并详细描述了所提出的NeRF-Det方法。

2024-03-13 17:23:43 806

原创重建3D结构方式 | 显式重建与隐式重建（Implicit Reconstruction）

在3D感知领域，包括3D目标检测在内，显式重建和隐式重建是两种不同的方法来表示和处理三维数据。它们各自有优势和局限，适用于不同的场景和需求。

2024-03-13 17:17:00 3187

原创 ICCV 2023 | NeRF-Det:Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Dete

本文介绍了一种新颖的方法，用于仅使用RGB图像作为输入进行室内3D目标检测。作者提出了利用神经辐射场（NeRF）来显式估计3D几何形状，以提高检测性能。他们。

2024-03-13 12:04:59 815

原创 3d场景重建&图像渲染 | 神经辐射场NeRF（Neural Radiance Fields）

Instant-ngp对于3D视觉、虚拟现实、增强现实和游戏开发等领域具有重要的意义，它不仅提高了NeRF技术的可用性，也为未来的图形渲染和3D建模开辟了新的可能性。通过对场景中的一系列点进行采样并计算它们的颜色和密度，NeRF可以模拟光线在场景中的传播，从而渲染出从特定视角观察到的场景图像。：通过优化的数据结构和算法，instant-ngp能够在几分钟内训练NeRF模型，并实现实时渲染，这是传统NeRF方法无法比拟的。这个过程需要大量的计算资源，因为它涉及到对每个训练图像的大量光线进行采样和渲染。

2024-03-11 15:04:21 2246

原创目标检测：Anchor-free算法模型

虽然不完全是今天所讨论的anchor-free检测方法，但DenseBox是较早采用端到端方式进行目标检测和定位的方法之一，它为后续的anchor-free方法提供了灵感。DenseBox通过直接在特征图上预测边界框和目标的存在，展示了去除传统锚点的可能性。YOLOv1是一个开创性的工作，它将目标检测视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率的映射。

2024-03-08 18:06:48 1534

原创目标检测：Anchor-Based & Anchor-Free算法模型

锚框通常由手动设计或数据分析来定义，以适应不同场景和物体的尺寸和形状。总结：Anchor-Based 与 Anchor-Free很大区别在于预测回归的是边界框偏移还是边界框本身，因为回归偏移就意味着存在一组基础锚框，被偏移所作用。方法更加灵活，因为它们不需要锚框，能够更好地适应不同的目标尺寸和形状。但它们可能需要更多的训练数据来实现与 anchor-based 方法相似的准确性。方法依赖于锚框，通常需要手动设计或选择合适的锚框，因此在某些情况下可能需要更多的人工工作。然而，它们在准确性上通常表现得更好。

2024-03-08 16:37:59 1308 2

原创目标检测论文模型笔记 | YOLO系列

2. **边界框预测的准确性**：这是模型预测的边界框与实际对象边界框的匹配程度。这通常通过IOU（Intersection Over Union，交并比）来衡量，即预测的边界框与真实边界框的交集与并集的比例。最终的得分是置信度得分和类别概率的乘积，这样可以得到模型对于检测到的对象属于特定类别的总体置信度。confidence score（置信度得分）是一个重要的概念，用于表示模型对检测到的目标的置信程度。1. **对象存在的概率**：这是模型预测当前检测框内存在任何对象的概率。

2024-03-08 16:24:49 318

原创目标检测经典模型笔记 | RCNN系列

Mask R-CNN的创新之处主要有两点：首先，引入了一个新的、与现有结构并行的分支，用于对每个感兴趣区域（ROI）生成高质量的分割掩码，实现精确的实例分割；其次，采用了ROI Align方法替代了先前的ROI Pooling，准确地从每个ROI中提取特征，解决了ROI Pooling中的量化误差问题，提高了检测的精度。，以便后续的分类和回归操作可以说ROI Pooling是Faster R-CNN中的一个重要步骤，是连接RPN和后续检测网络的桥梁。，feature map和anchor的对齐。

2024-03-07 21:29:01 1319

原创 ICCV2023 | MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection

在基于图像的 3D 感知方面的潜力。在 KITTI-3D 基准和 Waymo 开放数据集上进行的大量实验证明了 MonoNeRD 的有效性。代码可在 https: //github.com/cskkxjk/MonoNeRD 上获取。为了缓解这一问题，我们提出了 MonoNeRD，这是一种新颖的检测框架，可以推断出密集的三维几何图形和占位情况。来提高检测器的性能。然而，许多现有作品都明确采用了这些线索，如估计深度图并将其反向投影到三维空间。在单目三维检测领域，通常的做法是。据我们所知，这项研究。

2024-01-14 21:28:55 487

原创 ECCV2022 | BEVFormer

这六个方面完成 BEVFormer 的解析；

2023-11-09 19:29:57 489

原创 DETR | ECCV2020

与传统的目标检测方法不同，DETR 将目标检测问题看作一个直接从图像预测一组固定数量目标的。这些object queries是学习得到的，可以被看作是代表目标检测任务中不同物体的嵌入。的这种方法带来了许多优点，包括避免使用复杂的区域提议网络和 NMS，以及能够直接处理任意数量的目标。提供了一个新的视角来看待目标检测问题，并显示了 Transformer 架构在计算机视觉任务中的潜力。这种方法的主要优点是可以避免使用区域提议网络、锚点和手工设计的非极大值抑制（NMS）步骤。：这是DETR的一个。

2023-10-17 15:27:59 253

原创激光雷达目标检测&相机目标检测

因此，在实际应用中，通常会将激光雷达与相机等其他传感器一起使用，以充分利用它们的优势，提高目标检测的准确性和鲁棒性。3. **3D信息**: 激光雷达提供了关于物体的三维信息，包括高度、宽度和深度，而相机通常提供的是二维图像信息。2. **光照和环境条件无关**: 相机对光照和环境条件非常敏感，不同光照条件、阴影和反射可能会影响图像质量，从而影响目标检测性能。1. **距离信息**: 激光雷达能够提供物体与传感器的准确距离信息，而相机通常需要通过视差计算或深度估计来获得距离信息。

2023-10-12 11:31:33 992

原创目标检测：one-stage & two-stage算法

"One-Stage" 和 "Two-Stage" 是目标检测方法的两种基本架构，它们的主要区别在于如何执行目标检测任务。YOLO（You Only Look Once）和 SSD（Single Shot MultiBox Detector）选择 Two-Stage 还是 One-Stage 方法通常取决于任务需求和性能要求。（基于区域、即 region proposal阶段和区域分类与精细化阶段）

2023-10-11 15:51:49 387

原创 MMDetection3D——构建 Box

在 MMDetection3D 中，我们将设定为参考方向，此外在 MMDetection3D 支持的算法和数据集实现中，包围框的旋转角度只考虑朝向角 yaw，不考虑俯仰角 pitch 和翻滚角 roll。

2023-07-01 16:04:38 353

原创 CVPR2022 | DiffusionDet：基于扩散模型的目标检测框架

填充gt框为固定数量500 －> gt框加高斯噪声－> gt框坐标缩放－> 将N个损坏的框送入检测器　－>N个预测框和分类－> loss set 计算loss －> top k 策略为每个gt框assign成本最小的前k个预测框。整个模型分成两个部分，即图像编码器和检测解码器，检测解码器将以深度特征作为条件，而不是原始图像，以从噪声框zt中逐步细化边界框预测。检测解码器将一组建议框作为输入，将特征图裁剪RoI特征，并送入检测头，以获得回归框和分类结果。检测解码器由6个级联阶段组成。

2023-06-09 17:25:38 887

原创 ROI Align

ROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测测任务中将 ROI Pooling 替换为 ROI Align 可以提升检测模型的准确性。

2023-06-09 17:04:13 172

原创 MMDetection3d | projects魔改笔记

``ignored_instances``（InstanceData）：在训练/测试期间要忽略的实例。-`pred_instances _3d``（InstanceData）：模型的3d实例预测。-`gt_instances_3d``（InstanceData）：3d实例的gt注释。-`proposal``（InstanceData）：在两阶段中使用的区域建议探测器。-`gt_instances``（InstanceData）：2D实例的gt注释。

2023-05-24 10:59:58 780

原创 ICCV 2021| 3D Detection | DD3D

从单幅图像检测 3D 对象的最新进展利用单眼深度估计作为生成 3D 点云的方法，将相机变成伪激光雷达传感器。这些两级检测器随着中间深度估计网络的准确性而提高，而中间深度估计网络本身可以通过大规模自监督学习在没有人工标签的情况下得到改进。然而，它们往往比端到端方法更容易过度拟合，更复杂，并且与类似的基于激光雷达的检测器的差距仍然很大。在这项工作中，我们提出了一种端到端、单级、单目 3D 对象检测器 DD3D，它可以像伪激光雷达方法一样受益于深度预训练，但没有它们的局限性。

2023-03-31 11:19:10 237

原创单目3d目标检测介绍

2023-03-20 16:47:15 166

原创 3d目标检测 | 模型基础概念

3- 创建模型（具体到模型也有相应的Pipeline,比如模型的具体构成部分：比如 GCN+Attention+MLP的混合模型）总之，深度学习的Pipeline 就是模型实现的步骤。深度学习现在的Pipeline 一般都比较强调模型的组件构成流程。上5个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。深度学习模型框架的Pipeline ，由很多组件步骤链接起来的。

2023-03-20 13:44:30 141

原创 CaDDN论文理解

端到端的网络结构，使得训练起来相对简单，没有额外的几何约束，有点搭积木的感觉。这种设计使得不能侧重某一方面，就是把深度估计、2d检测、3d检测放一起，炖大锅菜的感觉。只能通过损失函数的权重来进行一些侧重倾向，但这种侧重能起到核心平衡作用吗？能否把残差的理念引入网络结构中？以减少网络模块间的误差传递。

2023-03-17 21:38:05 446

原创 CVPR 2021| 3D Detection | CaDDN

利用网格化的深度预测生成高质量的BEV图像，从而提升单目3D检测的性能。

2023-03-15 15:09:43 238

原创 ICCV、ECCV、CVPR

原文链接：https://blog.csdn.net/m0_46988935/article/details/109378535。

2023-03-13 20:38:37 3400

原创相机坐标系通过内参矩阵转换到像素坐标系

Xc，Yc，Zc为为相机坐标系的点，u,v为图像像素坐标系的点。即：相机坐标系的点通过相机内参矩阵得到图像像素坐标系中对应的点。xoy为相机坐标系，uv为图像像素坐标系。

2023-02-20 16:48:55 1100

原创仿射变换理解（非线性）

旋转放大缩小系数 A ，平移向量b：

2023-02-20 16:03:48 348

原创相机、图像、像素坐标系的转换与kitti标定文件

图像处理——4个坐标系及相关转换图像像素坐标系图像物理坐标系相机坐标系世界坐标系

2023-02-08 19:06:03 739

原创 Visdom：PyTorch可视化工具

visdom是Facebook专门为PyTorch开发的一款可视化工具，可以直接对Tensor进行操作。

2023-01-11 17:13:23 335

原创贝叶斯神经网络BNN

反向传播网络在优化完毕后，其权重是一个固定的值，而贝叶斯神经网络把权重看成是服从均值为 μ ，方差为 δ 的高斯分布，每个权重服从不同的高斯分布，反向传播网络优化的是权重，贝叶斯神经网络优化的是权重的均值和方差，所以贝叶斯神经网络需要优化的参数是反向传播网络的两倍。在预测时，BNN会从每个高斯分布中进行采样，得到权重值，此时贝叶斯神经网络就相当于一个反向传播网络。也可以进行多次采样，从而得到多次预测结果，将多次预测结果进行平均，从而得到最终的预测结果（就像是ensemble模型）

2022-12-12 03:06:31 1027

原创 KITTI数据集-label解析笔记

为了防止在评估过程中（主要是计算precision），将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性(false positives)，评估脚本会自动忽略’DontCare’ 区域的预测结果。是在相机坐标系下，以相机原点为中心，相机原点到物体中心的连线为半径，将物体绕相机y轴旋转至相机z轴，此时物体方向与相机x轴的夹角。在照相机坐标系下，物体的全局方向角（物体前进方向与相机坐标系x轴的夹角），范围：-pi~pi。0：完全可见 1：小部分遮挡 2：大部分遮挡 3：完全遮挡（unknown）

2022-11-14 15:04:46 3221 2

适配python3.6的torch0.4.0下载文件

空空如也