- 博客(817)
- 收藏
- 关注

原创 按关键字搜索自己的CSDN博客
搜索自己博客的功能在谷歌输入关键词,格式如下:<要检索的关键词> site:blog.csdn.net/<博客名>马氏距离 site:blog.csdn.net/djfjkj52
2020-02-28 19:38:15
346
原创 【Transformer-BEV编码(13)】稀疏PETR——streamPETR:Exploring Object-Centric Temporal Modeling for Effici和代码分析
本文提出了一个用于多视角3D目标检测的长序列建模框架StreamPETR。基于PETR系列的稀疏查询设计,我们系统地开发了一种以目标为中心的时间机制。该模型以在线方式运行,长期历史信息通过逐帧的目标查询进行传播。此外,我们引入了运动感知层归一化来建模目标的运动。与单帧基准相比,StreamPETR在几乎可以忽略不计的计算成本下实现了显著的性能提升。在标准nuScenes基准测试中,它是第一个能够与基于激光雷达的方法达到相当性能(67.6% NDS和65.3% AMOTA)的在线多视角方法。
2025-05-19 20:11:59
499
翻译 【端到端(2)】ICLR 2025SSR:Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving
端到端自动驾驶 (E2EAD) 方法通常依赖于监督感知任务来提取明确的场景信息(例如,物体、地图)。这种依赖需要昂贵的注释,并限制了实时应用中的部署和数据可扩展性。本文介绍了 SSR,这是一个新颖的框架,它仅使用 16 个导航引导标记作为稀疏场景表示,从而有效地提取了 E2EAD 的关键场景信息。我们的方法无需人工设计的监督子任务,从而使计算资源能够集中在与导航意图直接相关的重要元素上。我们还引入了一个时间增强模块,通过自监督将预测的未来场景与实际的未来场景对齐。
2025-05-15 16:05:02
35
转载 感知工程师的规划速成课
作为自动驾驶车辆的“头脑”,规划系统对于车辆的安全和高效驾驶至关重要。规划系统的目标是生成一条安全、舒适、高效的行驶轨迹。换句话说,安全性、舒适性和效率是规划的三个关键目标。为了给规划系统提供输入,系统需要所有感知输出,包括静态的道路结构、动态的道路参与者、占用网生成的占用空间(occupancy network)以及交通等待情况等。规划系统还必须通过监控加速度(acceleration)和加加速度(jerk)来确保车辆的舒适性,从而生成平滑的轨迹,同时考虑与其他交通参与者的互动和礼让。
2025-05-15 11:34:14
62
翻译 【去噪训练(2)】ECCV 2022:A Fast Knowledge Distillation Framework for Visual Recognition
本文提出了一种快速知识蒸馏(FKD)框架,旨在解决传统知识蒸馏(KD)方法中因教师网络转发导致的计算开销大、效率低的问题。FKD通过模拟蒸馏训练阶段并生成多裁剪图像的软标签,避免了RoI对齐和softmax操作,从而显著提高了训练速度。实验结果表明,FKD在ImageNet-1K数据集上使用ResNet-50实现了80.1%的准确率,比ReLabel高出1.2%,同时训练速度更快。此外,FKD在自监督学习任务中也表现出色,展示了其在多种视觉任务中的广泛适用性和高效性。
2025-05-15 11:10:02
21
翻译 【去噪训练(1)】DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
本文提出了一种新颖的去噪训练方法,以加速 DETR(检测变换器)的训练,并加深了对 DETR 类方法收敛速度慢问题的理解。我们指出,收敛速度慢是由于二分图匹配的不稳定性导致训练初期优化目标不一致所致。为了解决这个问题,除了匈牙利损失函数外,我们的方法还额外将带有噪声的 GT 边界框输入到 Transformer 解码器中,并训练模型重建原始边界框,从而有效降低了二分图匹配难度并加快了收敛速度。我们的方法具有通用性,只需添加数十行代码即可轻松插入到任何 DETR 类方法中,并实现显著的改进。
2025-05-08 15:05:23
57
原创 【蒸馏(5)】DistillBEV代码分析
特征对齐在检测中需结合类别平衡策略,直接应用会因背景主导而失效,这一结论已被大量实验验证。这种现象在三维物体检测中更加严重,因为绝大多数三维空间都是空的。我们对BEV特征图的统计发现,平均不到30%的像素是非空的,其中只有一小部分包含我们感兴趣的物体。为了进行有效的知识转移,我们引入了区域分解来引导学生关注关键区域,而不是平等对待所有区域。具体来说,我们将特征图分为四种类型:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。据此,我们定义一个区域分解掩码M:
2025-04-28 19:44:56
1047
翻译 【激光雷达3D(3)】MVX-Net: Multimodal VoxelNet for 3D Object Detection mvxnet和mmdet的源码学习mvxnet
近期许多关于 3D 物体检测的研究都致力于设计能够处理点云数据的神经网络架构。虽然这些方法表现出令人鼓舞的性能,但它们通常基于单一模态,无法利用来自其他模态(例如相机)的信息。尽管一些方法融合了来自不同模态的数据,但这些方法要么使用复杂的流水线按顺序处理模态,要么执行后期融合,无法在早期学习不同模态之间的交互。在本文中,我们提出了 PointFusion 和 VoxelFusion:两种简单而有效的早期融合方法,利用最近推出的 VoxelNet 架构将 RGB 和点云模态融合在一起。
2025-04-27 17:26:50
53
1
翻译 【数据增强(1)】CVPR2019: Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection
本报告介绍了我们的方法,该方法赢得了自动驾驶研讨会 (WAD, CVPR 2019) 上举办的 nuScenes 3D 检测挑战赛 [17]。通常,我们利用稀疏 3D 卷积提取丰富的语义特征,然后将其输入到类平衡的多头网络中执行 3D 物体检测。为了解决自动驾驶场景中固有的严重类别不平衡问题,我们设计了一种类平衡的采样和增强策略,以生成更均衡的数据分布。此外,我们提出了一个平衡的分组头来提升具有相似形状的类别的性能。
2025-04-27 16:03:25
31
原创 【激光雷达3D(6)】3D点云目标检测方法;CenterPoint、PV-RCNN和M3DETR的骨干网络选择存在差异
方法骨干网络核心特点灵活适配,检测头与骨干解耦PV-RCNN两阶段融合体素与点特征M3DETRVoxelNet 或 PointNet++Transformer解码器主导结论CenterPoint强调骨干灵活性,PV-RCNN侧重多特征融合,M3DETR则通过Transformer增强全局建模。基于体素的方法(VoxelNet、SECOND)必须使用3D卷积。基于点的方法(PointNet++)和部分混合方法(PointPillars)避免3D卷积,转而采用更高效的操作。
2025-04-24 16:15:25
811
原创 【激光雷达3D(7)】CenterPoint两阶段细化仅使用BEV特征;PV-RCNN两阶段细化使用体素特征;M3DETRTransformer统一多表征特征
通过Transformer同时处理多尺度、多表征(原始点云、体素、BEV)的特征,直接输出检测结果,无需显式的区域提议(Region Proposal)阶段。:类似DETR,使用可学习的查询(Query)与编码器特征交互,通过解码器直接预测边界框,省略了RoI特征提取步骤。,实验中也对比了融合体素特征的方法(如Voxel-Set Abstraction和RBF插值)。M3DETR通过Transformer实现端到端检测,无需显式两阶段设计。:在小目标和遮挡场景中表现突出,但训练复杂度高。
2025-04-24 16:14:59
529
翻译 【激光雷达3D(5)】Multimodal Virtual Point 3D Detection
基于激光雷达的传感技术驱动着当今的自动驾驶汽车。尽管激光雷达技术发展迅速,但目前的激光雷达传感器在分辨率和成本方面仍比传统彩色摄像头落后二十年。对于自动驾驶而言,这意味着靠近传感器的大型物体很容易被看到,但远处或较小的物体仅占一到两个测量值。这是一个问题,尤其是在这些物体最终成为驾驶危险因素时。另一方面,这些物体在车载 RGB 传感器中清晰可见。本文提出了一种将 RGB 传感器无缝融合到基于激光雷达的 3D 识别中的方法。
2025-04-24 16:03:07
22
原创 PyTorch 中一个常见但容易踩坑的知识点:多进程的 pickle 流程
pickle是 Python 的一种序列化机制,它能把一个 Python 对象转换成二进制数据,然后传给另一个进程使用。举个例子:import pickleb = pickle.dumps(x) # 把对象 x 转成二进制x2 = pickle.loads(b) # 把二进制还原成原来的对象PyTorch 用多进程加载数据时,会自动使用pickle来序列化你的Dataset对象传给子进程。如果 Dataset 中有不能被pickle的对象(比如.keys()返回的视图),就会报错。
2025-04-21 14:41:55
479
翻译 【运动预测(1)】CVPR2021:mmTransformer:Multimodal Motion Prediction with Stacked Transformers
预测附近车辆未来多条合理轨迹对于自动驾驶安全至关重要。近期的运动预测方法试图通过隐式正则化特征或显式生成多个候选候选区域来实现这种多模态运动预测。然而,这仍然具有挑战性,因为潜在特征可能集中在数据中最频繁出现的模式上,而基于候选区域的方法在很大程度上依赖于先验知识来生成和选择候选区域。在本研究中,我们提出了一种用于多模态运动预测的新型Transformer框架,称为mmTransformer。我们设计了一种基于堆叠Transformer的新型网络架构,利用一组固定的独立候选区域在特征级别对多模态进行建模。
2025-04-15 18:22:26
43
翻译 【Transformer-BEV编码(17)】GKT:Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guide
地址:https://arxiv.org/abs/2206.04584。
2025-04-15 10:33:07
26
翻译 【BEV地图(4)】Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Constru
在线车道图构建是自动驾驶中一项有前景但具有挑战性的任务。以前的方法通常在像素或片段级别对车道图进行建模,并通过逐像素或逐片段连接来恢复车道图,这会破坏车道的连续性并导致性能不佳。人类驾驶员专注于沿着连续完整的路径行驶,而不会考虑车道片段。自动驾驶汽车还需要车道图的路径特定引导以进行轨迹规划。我们认为指示交通流的路径是车道图的基元。受此启发,我们提出以一种新颖的路径方式对车道图进行建模,这种方式可以很好地保持车道的连续性并为规划编码交通信息。
2025-04-14 20:15:45
27
翻译 【BEV地图(3)】MapTRv2:An End-to-End Framework for Online Vectorized HD Map Construction
高清地图提供了丰富而精准的驾驶场景静态环境信息,是自动驾驶系统规划不可或缺的基础。本文提出了 Map TRansformer,一个用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的置换等价建模方法,即将地图元素建模为具有一组等价置换的点集,从而准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案,可以灵活地编码结构化地图信息,并执行分层二分匹配以进行地图元素学习。为了加快收敛速度,我们进一步引入了辅助一对多匹配和密集监督。该方法能够很好地处理各种形状的地图元素。
2025-04-14 19:43:27
47
翻译 【BEV地图(3)】MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction
高清地图是自动驾驶系统规划不可或缺的基础,它能够提供丰富精准的驾驶场景环境信息。我们提出了 MapTR,一种结构化的端到端 Transformer,用于高效在线构建矢量化高清地图。我们提出了一种统一的置换等价建模方法,即将地图元素建模为具有一组等价置换的点集,这种方法能够准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案,可以灵活地编码结构化地图信息,并执行分层二分匹配以进行地图元素学习。在现有的 nuScenes 数据集上,MapTR 在仅使用摄像头输入的情况下实现了最佳性能和效率。
2025-04-14 16:50:16
26
翻译 BEV地图评估尺度:Chamfer距离和Fréchet距离
参考自:VectorMapNet: End-to-end Vectorized HD Map Learning。
2025-04-14 13:58:31
33
翻译 【BEV地图(1)】VectorMapNet: End-to-end Vectorized HD Map Learning
自动驾驶系统需要高清 (HD) 语义地图来导航城市道路。现有的解决方案通过离线手动标注来解决语义地图绘制问题,但这种方法存在严重的可扩展性问题。近期基于学习的方法可以生成密集的栅格化分割预测来构建地图。然而,这些预测不包含单个地图元素的实例信息,并且需要启发式后处理才能获得矢量化地图。为了应对这些挑战,我们引入了一种端到端的矢量化高清地图学习流程,称为 VectorMapNet。VectorMapNet 利用车载传感器的观测数据,预测鸟瞰图中一组稀疏的折线。
2025-04-14 11:20:14
54
转载 【分割损失】Dice loss,用于提升分割
论文笔记] V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation 提出了一个新的指标函数,类似IoU、Pa,叫做Dice coefficient网络预测由两个具有与原始输入数据相同分辨率的体素组成,并通过softmax层进行处理,该层输出每个体素属于前景和背景的概率。在我们的研究中,感兴趣的解剖一般仅占据很小的扫描区域。
2025-04-11 16:09:19
65
翻译 DeepLabv3+:Encoder-Decoder with Atrous Separable Convolutio多尺度空洞卷积并行结构ASPP+EncoderDecoder 结构+深度可分离卷积
空间金字塔池化模块或编码-解码器结构常用于深度神经网络的语义分割任务。前者能够通过使用多种速率和多种有效视野的滤波器或池化操作探测输入特征来编码多尺度上下文信息,而后者则能够通过逐步恢复空间信息来捕捉更清晰的物体边界。在本研究中,我们提出结合两种方法的优势。具体而言,我们提出的模型 DeepLabv3+ 在 DeepLabv3 的基础上添加了一个简单而有效的解码器模块,以优化分割结果,尤其是在物体边界上。
2025-04-11 15:49:39
62
原创 【端到端】端到端自动驾驶依赖Occupancy进行运动规划?还是可以具有生成局部地图来规划?
Occupancy 是越来越被当作“可通行空间”表示,用于运动规划的一个核心输入;但生成结构化的局部地图用于规划仍然是目前更稳定可控的工程路线。
2025-04-11 10:08:11
322
转载 GPT-4o探索在图像生成中引入自回归
语言是离散的,所以适合用自回归模型来生成;而图像是连续的,所以适合用扩散模型来生成。在生成模型发展早期,这种刻板印象广泛存在于很多研究者的脑海中。但最近,这种印象正被打破。更多的研究者开始探索在图像生成中引入自回归(如 GPT-4o),在语言生成中引入扩散。香港大学和华为诺亚方舟实验室的一项研究就是其中之一。他们刚刚发布的扩散推理模型 Dream 7B 拿下了开源扩散语言模型的新 SOTA,在各方面都大幅超越现有的扩散语言模型。
2025-04-11 09:35:43
25
翻译 MambaBEV: An efficient 3D detection model with Mamba2:第一个将 Mamba2 集成到基于摄像头的检测模型中的模型
自动驾驶中精准的 3D 物体检测依赖于鸟瞰图 (BEV) 感知和有效的时间融合。然而,现有的融合策略——基于卷积层或可变形自注意力机制——在 BEV 空间中难以进行全局上下文建模,导致大型物体的准确率较低。为了解决这个问题,我们提出了 MambaBEV,这是一种基于 BEV 的新型 3D 物体检测模型,它利用了 Mamba2——一种针对长序列处理优化的高级状态空间模型 (SSM)。
2025-04-10 16:01:21
39
翻译 CVPR2025:MambaVision: A Hybrid Mamba-Transformer Vision Backbone
我们提出了一种新颖的混合 Mamba-Transformer 主干网络 MambaVision,专为视觉应用量身定制。我们的核心贡献包括重新设计 Mamba 的公式,以增强其高效建模视觉特征的能力。通过全面的消融研究,我们证明了将 Vision Transformers (ViT) 与 Mamba 集成的可行性。结果表明,在 Mamba 架构的最终层中引入自注意力模块,可以显著提升其捕捉长距离空间依赖关系的能力。基于这些发现,我们引入了一系列具有分层架构的 MambaVision 模型,以满足各种设计标准。
2025-04-10 15:51:48
141
翻译 【论文】原始论文Mamba: Linear-Time Sequence Modeling with Selective State Spaces
目前,深度学习领域中大多数激动人心的应用都基于 Transformer 架构及其核心注意力模块。许多亚二次时间架构,例如线性注意力、门控卷积和循环模型以及结构化状态空间模型 (SSM),已被开发用于解决 Transformer 在长序列上的计算效率低下问题,但它们在语言等重要模态上的表现不如注意力模块。我们发现此类模型的一个关键弱点是它们无法进行基于内容的推理,并做出了一些改进。
2025-04-10 15:39:51
118
翻译 【TTS(1)】Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synth
文本转语音 (TTS) 系统在处理复杂的语言特征、处理复音表达以及生成自然的多语言语音方面面临着持续的挑战——这些能力对于未来的人工智能应用至关重要。本文提出了 Fish-Speech,这是一个新颖的框架,它实现了一个串行快慢双自回归 (Dual-AR) 架构,以增强分组有限标量矢量量化 (GFSQ) 在序列生成任务中的稳定性。该架构在保持高保真输出的同时提高了码本处理效率,使其在人工智能交互和语音克隆方面尤为有效。
2025-04-09 15:36:14
37
翻译 【LVLMs】地平线:HE-Drive Human-Like End-to-End Driving with Vision Language Models
在本文中,我们提出了 HE-Drive:第一个以类人为中心的端到端自动驾驶系统,可生成时间一致且舒适的轨迹。最近的研究表明,基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的准确轨迹。然而,这样的轨迹规划器和评分器面临着生成时间不一致和不舒服的轨迹的困境。为了解决上述问题,我们的 HE-Drive 首先通过稀疏感知提取关键的 3D 空间表示,然后将其作为基于条件去噪扩散概率模型 (DDPM) 的运动规划器的条件输入,以生成时间一致性的多模态轨迹。
2025-04-08 09:23:16
47
翻译 【LVLMs】CVPR2023: YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO 系列检测器已成为高效实用的工具。然而,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制,我们推出了 YOLO-World,这是一种创新方法,通过视觉语言建模和在大规模数据集上进行预训练,为 YOLO 增强了开放词汇检测能力。具体来说,我们提出了一种新的可重新参数化的视觉语言路径聚合网络 (RepVL-PAN) 和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零样本方式高效检测各种物体。
2025-04-02 17:44:29
78
翻译 【LVLMs】YOLO-UniOW: Efficient Universal Open-World Object Detection
预训练大模型(如CLIP、GPT)├─ 传统全微调:高成本,需大量标注数据│ ├─ 手工提示:人工设计,灵活性低│ └─ 可学习提示(DetPro等):动态适配任务└─ LoRA系列├─ 冻结原权重,仅训练低秩增量└─ CLIPLoRA:替代适配器/提示,高效微调VLMs这些技术共同推动了轻量化迁移学习的发展,使大模型能更高效地适应多样化下游任务。
2025-04-02 17:16:35
91
翻译 CVPR2025:LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes
LiDAR 数据预训练提供了一种很有前途的方法,可以利用大规模、现成的数据集来提高数据利用率。然而,现有方法主要关注稀疏体素表示,忽略了其他 LiDAR 表示提供的互补属性。在这项工作中,我们提出了 LiMoE,这是一个将专家混合 (MoE) 范式集成到 LiDAR 数据表示学习中的框架,以协同组合多种表示,例如范围图像、稀疏体素和原始点。我们的方法包括三个阶段:(i) 图像到 LiDAR 预训练,将先验知识从图像转移到不同表示之间的点云;
2025-04-02 16:24:40
95
原创 【蒸馏用损失】批评家的神经网络 g 来近似 InfoNCE 损失
批评家网络 ( g ) 通过动态学习相似性函数,更贴近 InfoNCE 的多分类对比范式,而非 NCE 的静态噪声对比机制。
2025-04-01 12:54:40
661
原创 【蒸馏用损失】KL散度损失,KL散度与交叉熵的关系
KL散度是衡量分布差异的重要工具,尤其适用于生成模型和概率拟合任务。理解其非对称性和信息论背景有助于正确应用。
2025-04-01 11:37:22
1001
原创 【蒸馏用损失】InfoNCEloss介绍。当忽略温度系数τ时,InfoNCE 等价于交叉熵。对比学习通过数据增强构建对比任务,利用损失函数驱动模型区分相似性,广泛应用于无监督/自监督场景
InfoNCE Loss 是 NCE Loss 的高阶泛化,通过引入多分类对比和温度系数,更适合现代自监督学习任务。两者均基于噪声对比思想,但 InfoNCE Loss 在灵活性和性能上更优。二分类(数据 vs 噪声):适用于显式噪声分布的简化场景,计算效率高但灵活性低。多分类(正样本 vs 负样本):更适合自监督学习,通过动态采样和softmax优化特征空间判别性。如需进一步探讨具体任务(如NLP或CV中的应用),可补充说明场景。
2025-04-01 11:23:02
1085
原创 【LVLMs】LVLMs和OVD结合的一些想法
OVD通过开放词汇能力和多模态融合,提供了更灵活、可扩展的环境感知方案,尤其在处理未知物体和动态场景中展现出显著优势。随着YOLO-UniOW、LLMDet等模型的演进,OVD有望成为视觉系统的核心组件之一。开放词汇目标检测(Open-Vocabulary Object Detection, OVD)
2025-03-31 19:59:12
297
翻译 【LVLMs】CVPR2023:BARON:Aligning bag of regions for openvocabulary object detection
预训练的视觉语言模型 (VLM) 学习在大规模数据集上对齐视觉和语言表示,其中每个图像文本对通常包含一个语义概念包。然而,现有的开放词汇对象检测器仅将区域嵌入与从 VLM 中提取的相应特征单独对齐。这样的设计使得场景中语义概念的组合结构未得到充分利用,尽管 VLM 可以隐式地学习该结构。在这项工作中,我们提出将区域包的嵌入对齐到单个区域之外。所提出的方法将上下文相关的区域分组为一个包。
2025-03-31 19:43:19
46
翻译 【LVLMs】Frozen-DETR: Enhancing detr with image understanding from frozen foundation model(CLIP作为基础模型)
最近的视觉基础模型可以提取通用表示并在各种任务中表现出令人印象深刻的能力。然而,它们在物体检测上的应用在很大程度上被忽视了,特别是在没有对它们进行微调的情况下。在这项工作中,我们展示了冻结的基础模型可以成为一个多功能的特征增强器,即使它们没有经过物体检测的预训练。具体来说,我们探索通过以下两种方式将基础模型的高级图像理解直接转移到检测器。首先,基础模型中的类标记提供了对复杂场景的深入理解,通过提供紧凑的上下文,有助于在检测器的解码器中解码对象查询。
2025-03-31 17:15:31
40
翻译把STL容器放入共享内存
2024-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人