Hali_Botebie-CSDN博客

原创按关键字搜索自己的CSDN博客

搜索自己博客的功能在谷歌输入关键词，格式如下：<要检索的关键词> site:blog.csdn.net/<博客名>马氏距离 site:blog.csdn.net/djfjkj52

2020-02-28 19:38:15 346

原创【Transformer-BEV编码（13）】稀疏PETR——streamPETR：Exploring Object-Centric Temporal Modeling for Effici和代码分析

本文提出了一个用于多视角3D目标检测的长序列建模框架StreamPETR。基于PETR系列的稀疏查询设计，我们系统地开发了一种以目标为中心的时间机制。该模型以在线方式运行，长期历史信息通过逐帧的目标查询进行传播。此外，我们引入了运动感知层归一化来建模目标的运动。与单帧基准相比，StreamPETR在几乎可以忽略不计的计算成本下实现了显著的性能提升。在标准nuScenes基准测试中，它是第一个能够与基于激光雷达的方法达到相当性能（67.6% NDS和65.3% AMOTA）的在线多视角方法。

2025-05-19 20:11:59 499

翻译【端到端（2）】ICLR 2025SSR：Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving

端到端自动驾驶 (E2EAD) 方法通常依赖于监督感知任务来提取明确的场景信息（例如，物体、地图）。这种依赖需要昂贵的注释，并限制了实时应用中的部署和数据可扩展性。本文介绍了 SSR，这是一个新颖的框架，它仅使用 16 个导航引导标记作为稀疏场景表示，从而有效地提取了 E2EAD 的关键场景信息。我们的方法无需人工设计的监督子任务，从而使计算资源能够集中在与导航意图直接相关的重要元素上。我们还引入了一个时间增强模块，通过自监督将预测的未来场景与实际的未来场景对齐。

2025-05-15 16:05:02 35

转载感知工程师的规划速成课

作为自动驾驶车辆的“头脑”，规划系统对于车辆的安全和高效驾驶至关重要。规划系统的目标是生成一条安全、舒适、高效的行驶轨迹。换句话说，安全性、舒适性和效率是规划的三个关键目标。为了给规划系统提供输入，系统需要所有感知输出，包括静态的道路结构、动态的道路参与者、占用网生成的占用空间（occupancy network）以及交通等待情况等。规划系统还必须通过监控加速度（acceleration）和加加速度（jerk）来确保车辆的舒适性，从而生成平滑的轨迹，同时考虑与其他交通参与者的互动和礼让。

2025-05-15 11:34:14 62

翻译【去噪训练（2）】ECCV 2022：A Fast Knowledge Distillation Framework for Visual Recognition

本文提出了一种快速知识蒸馏（FKD）框架，旨在解决传统知识蒸馏（KD）方法中因教师网络转发导致的计算开销大、效率低的问题。FKD通过模拟蒸馏训练阶段并生成多裁剪图像的软标签，避免了RoI对齐和softmax操作，从而显著提高了训练速度。实验结果表明，FKD在ImageNet-1K数据集上使用ResNet-50实现了80.1%的准确率，比ReLabel高出1.2%，同时训练速度更快。此外，FKD在自监督学习任务中也表现出色，展示了其在多种视觉任务中的广泛适用性和高效性。

2025-05-15 11:10:02 21

翻译【去噪训练（1）】DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

本文提出了一种新颖的去噪训练方法，以加速 DETR（检测变换器）的训练，并加深了对 DETR 类方法收敛速度慢问题的理解。我们指出，收敛速度慢是由于二分图匹配的不稳定性导致训练初期优化目标不一致所致。为了解决这个问题，除了匈牙利损失函数外，我们的方法还额外将带有噪声的 GT 边界框输入到 Transformer 解码器中，并训练模型重建原始边界框，从而有效降低了二分图匹配难度并加快了收敛速度。我们的方法具有通用性，只需添加数十行代码即可轻松插入到任何 DETR 类方法中，并实现显著的改进。

2025-05-08 15:05:23 57

原创【蒸馏（5）】DistillBEV代码分析

特征对齐在检测中需结合类别平衡策略，直接应用会因背景主导而失效，这一结论已被大量实验验证。这种现象在三维物体检测中更加严重，因为绝大多数三维空间都是空的。我们对BEV特征图的统计发现，平均不到30%的像素是非空的，其中只有一小部分包含我们感兴趣的物体。为了进行有效的知识转移，我们引入了区域分解来引导学生关注关键区域，而不是平等对待所有区域。具体来说，我们将特征图分为四种类型：真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。据此，我们定义一个区域分解掩码M：

2025-04-28 19:44:56 1047

翻译【激光雷达3D（3）】MVX-Net: Multimodal VoxelNet for 3D Object Detection mvxnet和mmdet的源码学习mvxnet

近期许多关于 3D 物体检测的研究都致力于设计能够处理点云数据的神经网络架构。虽然这些方法表现出令人鼓舞的性能，但它们通常基于单一模态，无法利用来自其他模态（例如相机）的信息。尽管一些方法融合了来自不同模态的数据，但这些方法要么使用复杂的流水线按顺序处理模态，要么执行后期融合，无法在早期学习不同模态之间的交互。在本文中，我们提出了 PointFusion 和 VoxelFusion：两种简单而有效的早期融合方法，利用最近推出的 VoxelNet 架构将 RGB 和点云模态融合在一起。

2025-04-27 17:26:50 53 1

翻译【数据增强（1）】CVPR2019: Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection

本报告介绍了我们的方法，该方法赢得了自动驾驶研讨会 (WAD, CVPR 2019) 上举办的 nuScenes 3D 检测挑战赛 [17]。通常，我们利用稀疏 3D 卷积提取丰富的语义特征，然后将其输入到类平衡的多头网络中执行 3D 物体检测。为了解决自动驾驶场景中固有的严重类别不平衡问题，我们设计了一种类平衡的采样和增强策略，以生成更均衡的数据分布。此外，我们提出了一个平衡的分组头来提升具有相似形状的类别的性能。

2025-04-27 16:03:25 31

原创【激光雷达3D（6）】3D点云目标检测方法；CenterPoint、PV-RCNN和M3DETR的骨干网络选择存在差异

方法骨干网络核心特点灵活适配，检测头与骨干解耦PV-RCNN两阶段融合体素与点特征M3DETRVoxelNet 或 PointNet++Transformer解码器主导结论CenterPoint强调骨干灵活性，PV-RCNN侧重多特征融合，M3DETR则通过Transformer增强全局建模。基于体素的方法（VoxelNet、SECOND）必须使用3D卷积。基于点的方法（PointNet++）和部分混合方法（PointPillars）避免3D卷积，转而采用更高效的操作。

2025-04-24 16:15:25 811

原创【激光雷达3D（7）】CenterPoint两阶段细化仅使用BEV特征；PV-RCNN两阶段细化使用体素特征；M3DETRTransformer统一多表征特征

通过Transformer同时处理多尺度、多表征（原始点云、体素、BEV）的特征，直接输出检测结果，无需显式的区域提议（Region Proposal）阶段。：类似DETR，使用可学习的查询（Query）与编码器特征交互，通过解码器直接预测边界框，省略了RoI特征提取步骤。，实验中也对比了融合体素特征的方法（如Voxel-Set Abstraction和RBF插值）。M3DETR通过Transformer实现端到端检测，无需显式两阶段设计。：在小目标和遮挡场景中表现突出，但训练复杂度高。

2025-04-24 16:14:59 529

翻译【激光雷达3D（5）】Multimodal Virtual Point 3D Detection

基于激光雷达的传感技术驱动着当今的自动驾驶汽车。尽管激光雷达技术发展迅速，但目前的激光雷达传感器在分辨率和成本方面仍比传统彩色摄像头落后二十年。对于自动驾驶而言，这意味着靠近传感器的大型物体很容易被看到，但远处或较小的物体仅占一到两个测量值。这是一个问题，尤其是在这些物体最终成为驾驶危险因素时。另一方面，这些物体在车载 RGB 传感器中清晰可见。本文提出了一种将 RGB 传感器无缝融合到基于激光雷达的 3D 识别中的方法。

2025-04-24 16:03:07 22

原创 PyTorch 中一个常见但容易踩坑的知识点：多进程的 pickle 流程

pickle是 Python 的一种序列化机制，它能把一个 Python 对象转换成二进制数据，然后传给另一个进程使用。举个例子：import pickleb = pickle.dumps(x) # 把对象 x 转成二进制x2 = pickle.loads(b) # 把二进制还原成原来的对象PyTorch 用多进程加载数据时，会自动使用pickle来序列化你的Dataset对象传给子进程。如果 Dataset 中有不能被pickle的对象（比如.keys()返回的视图），就会报错。

2025-04-21 14:41:55 479

翻译【运动预测（1）】CVPR2021：mmTransformer：Multimodal Motion Prediction with Stacked Transformers

预测附近车辆未来多条合理轨迹对于自动驾驶安全至关重要。近期的运动预测方法试图通过隐式正则化特征或显式生成多个候选候选区域来实现这种多模态运动预测。然而，这仍然具有挑战性，因为潜在特征可能集中在数据中最频繁出现的模式上，而基于候选区域的方法在很大程度上依赖于先验知识来生成和选择候选区域。在本研究中，我们提出了一种用于多模态运动预测的新型Transformer框架，称为mmTransformer。我们设计了一种基于堆叠Transformer的新型网络架构，利用一组固定的独立候选区域在特征级别对多模态进行建模。

2025-04-15 18:22:26 43

翻译【Transformer-BEV编码（17）】GKT:Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guide

地址：https://arxiv.org/abs/2206.04584。

2025-04-15 10:33:07 26

翻译【BEV地图（4）】Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Constru

在线车道图构建是自动驾驶中一项有前景但具有挑战性的任务。以前的方法通常在像素或片段级别对车道图进行建模，并通过逐像素或逐片段连接来恢复车道图，这会破坏车道的连续性并导致性能不佳。人类驾驶员专注于沿着连续完整的路径行驶，而不会考虑车道片段。自动驾驶汽车还需要车道图的路径特定引导以进行轨迹规划。我们认为指示交通流的路径是车道图的基元。受此启发，我们提出以一种新颖的路径方式对车道图进行建模，这种方式可以很好地保持车道的连续性并为规划编码交通信息。

2025-04-14 20:15:45 27

翻译【BEV地图（3）】MapTRv2：An End-to-End Framework for Online Vectorized HD Map Construction

高清地图提供了丰富而精准的驾驶场景静态环境信息，是自动驾驶系统规划不可或缺的基础。本文提出了 Map TRansformer，一个用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的置换等价建模方法，即将地图元素建模为具有一组等价置换的点集，从而准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案，可以灵活地编码结构化地图信息，并执行分层二分匹配以进行地图元素学习。为了加快收敛速度，我们进一步引入了辅助一对多匹配和密集监督。该方法能够很好地处理各种形状的地图元素。

2025-04-14 19:43:27 47

翻译【BEV地图（3）】MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction

高清地图是自动驾驶系统规划不可或缺的基础，它能够提供丰富精准的驾驶场景环境信息。我们提出了 MapTR，一种结构化的端到端 Transformer，用于高效在线构建矢量化高清地图。我们提出了一种统一的置换等价建模方法，即将地图元素建模为具有一组等价置换的点集，这种方法能够准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案，可以灵活地编码结构化地图信息，并执行分层二分匹配以进行地图元素学习。在现有的 nuScenes 数据集上，MapTR 在仅使用摄像头输入的情况下实现了最佳性能和效率。

2025-04-14 16:50:16 26

翻译 BEV地图评估尺度：Chamfer距离和Fréchet距离

参考自：VectorMapNet: End-to-end Vectorized HD Map Learning。

2025-04-14 13:58:31 33

翻译【BEV地图（1）】VectorMapNet: End-to-end Vectorized HD Map Learning

自动驾驶系统需要高清 (HD) 语义地图来导航城市道路。现有的解决方案通过离线手动标注来解决语义地图绘制问题，但这种方法存在严重的可扩展性问题。近期基于学习的方法可以生成密集的栅格化分割预测来构建地图。然而，这些预测不包含单个地图元素的实例信息，并且需要启发式后处理才能获得矢量化地图。为了应对这些挑战，我们引入了一种端到端的矢量化高清地图学习流程，称为 VectorMapNet。VectorMapNet 利用车载传感器的观测数据，预测鸟瞰图中一组稀疏的折线。

2025-04-14 11:20:14 54

转载【分割损失】Dice loss，用于提升分割

论文笔记] V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation 提出了一个新的指标函数，类似IoU、Pa，叫做Dice coefficient网络预测由两个具有与原始输入数据相同分辨率的体素组成，并通过softmax层进行处理，该层输出每个体素属于前景和背景的概率。在我们的研究中，感兴趣的解剖一般仅占据很小的扫描区域。

2025-04-11 16:09:19 65

翻译 DeepLabv3+：Encoder-Decoder with Atrous Separable Convolutio多尺度空洞卷积并行结构ASPP+EncoderDecoder 结构+深度可分离卷积

空间金字塔池化模块或编码-解码器结构常用于深度神经网络的语义分割任务。前者能够通过使用多种速率和多种有效视野的滤波器或池化操作探测输入特征来编码多尺度上下文信息，而后者则能够通过逐步恢复空间信息来捕捉更清晰的物体边界。在本研究中，我们提出结合两种方法的优势。具体而言，我们提出的模型 DeepLabv3+ 在 DeepLabv3 的基础上添加了一个简单而有效的解码器模块，以优化分割结果，尤其是在物体边界上。

2025-04-11 15:49:39 62

原创【端到端】端到端自动驾驶依赖Occupancy进行运动规划？还是可以具有生成局部地图来规划？

Occupancy 是越来越被当作“可通行空间”表示，用于运动规划的一个核心输入；但生成结构化的局部地图用于规划仍然是目前更稳定可控的工程路线。

2025-04-11 10:08:11 322

转载 GPT-4o探索在图像生成中引入自回归

语言是离散的，所以适合用自回归模型来生成；而图像是连续的，所以适合用扩散模型来生成。在生成模型发展早期，这种刻板印象广泛存在于很多研究者的脑海中。但最近，这种印象正被打破。更多的研究者开始探索在图像生成中引入自回归（如 GPT-4o），在语言生成中引入扩散。香港大学和华为诺亚方舟实验室的一项研究就是其中之一。他们刚刚发布的扩散推理模型 Dream 7B 拿下了开源扩散语言模型的新 SOTA，在各方面都大幅超越现有的扩散语言模型。

2025-04-11 09:35:43 25

原创【车道线检测（0）】卷首语

车道线检测领域，早期的LaneNet、CondLaneNet等模型。现在在等方面有了更多进展。

2025-04-10 17:23:05 819

翻译 MambaBEV: An efficient 3D detection model with Mamba2：第一个将 Mamba2 集成到基于摄像头的检测模型中的模型

自动驾驶中精准的 3D 物体检测依赖于鸟瞰图 (BEV) 感知和有效的时间融合。然而，现有的融合策略——基于卷积层或可变形自注意力机制——在 BEV 空间中难以进行全局上下文建模，导致大型物体的准确率较低。为了解决这个问题，我们提出了 MambaBEV，这是一种基于 BEV 的新型 3D 物体检测模型，它利用了 Mamba2——一种针对长序列处理优化的高级状态空间模型 (SSM)。

2025-04-10 16:01:21 39

翻译 CVPR2025：MambaVision: A Hybrid Mamba-Transformer Vision Backbone

我们提出了一种新颖的混合 Mamba-Transformer 主干网络 MambaVision，专为视觉应用量身定制。我们的核心贡献包括重新设计 Mamba 的公式，以增强其高效建模视觉特征的能力。通过全面的消融研究，我们证明了将 Vision Transformers (ViT) 与 Mamba 集成的可行性。结果表明，在 Mamba 架构的最终层中引入自注意力模块，可以显著提升其捕捉长距离空间依赖关系的能力。基于这些发现，我们引入了一系列具有分层架构的 MambaVision 模型，以满足各种设计标准。

2025-04-10 15:51:48 141

翻译把STL容器放入共享内存

空空如也