自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自动驾驶实战

理想与现实该如何去融合

  • 博客(96)
  • 资源 (1)
  • 收藏
  • 关注

原创 在线地图构建GenMapping:使用IPM实现三重增强,语义映射mIou提升超17%

在线高清(HD)地图已成为自动驾驶的首选方案,凭借其灵活的更新能力和较低的维护成本,逐渐超越了离线高清地图。然而,现有的在线高清地图模型将视觉传感器的参数嵌入训练过程中,导致在应用于不同参数的视觉传感器时泛化性能显著下降。受到逆透视映射(IPM)固有潜力的启发,IPM 可以在训练过程中解耦相机参数,我们设计了一个通用的地图生成框架——GenMapping。该框架基于三重协同架构,包括主分支和两个辅助分支。当通过 IPM 转换的粗糙路面图像伴随局部失真时,主分支在状态空间模型下学习鲁棒的全局特征。

2024-09-22 10:16:30 794

原创 定位百度Apollo事故原因SoVAR: 使用LLM重构自动驾驶事故场景

SoVAR只需要事故的描述性文本来提取信息,而无需依赖其他数据。与当前的场景重建工作一致,SoVAR专注于主要的车祸影响因素,即照明、天气、道路和车辆运动。它直接使用LLM提取信息,而不引入新的信息。为了抽象表示事故信息并将其组织成LLM能够理解的语义结构,我们提出了分层表示的方式,将提取的信息分为三个层次:道路、环境和动态对象。表1显示了提取属性的详细描述和示例。如果事故报告中缺少信息,说明这些缺失的细节对事故不重要。SoVAR具有很强的通用性,因为它可以在必要时自动分配默认值。

2024-09-22 10:07:00 945

原创 启发式生成最佳轨迹ReGentS:超32个智能体生成现实世界的安全关键驾驶场景

基于机器学习的自动驾驶系统经常面临安全关键场景的挑战,而这些场景在真实世界的数据中较为罕见,从而阻碍了其大规模部署。虽然增加真实世界训练数据的覆盖范围可以解决这个问题,但代价高昂且存在危险。本研究通过轨迹优化,探索通过修改复杂的真实世界常规场景来生成安全关键驾驶场景。我们提出了ReGentS,该方法通过稳定生成的轨迹并引入启发式方法来避免明显的碰撞和优化问题。我们的方法解决了不现实的分离轨迹和不可避免的碰撞场景,这些场景对训练鲁棒的规划器没有用处。

2024-09-19 22:47:05 955

原创 实时性视觉语言模型MiniDrive:使用多帧图像给语言模型为自动驾驶文本标记

视觉-语言模型(VLMs)作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型(LLMs),使其在现实场景和实时应用中难以部署。同时,大多数现有的VLMs缺乏处理多张图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一个名为MiniDrive的全新框架,该框架结合了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。

2024-09-18 23:23:30 792

原创 智能车贾维斯诞生Hint-AD:使用人类语言的整体一致的可解释性端到端自动驾驶

自动驾驶 (AD) 中的端到端架构面临着解释性问题,阻碍了人类对AI的信任。人性化的自然语言已被用于驾驶解释和三维场景描述等任务。然而,之前的工作主要集中在声明性可解释性的范式上,自然语言解释并未基于AD系统的中间输出,这使得解释仅仅是声明性的。相比之下,对齐式可解释性则在语言和AD系统的中间输出之间建立了联系。本文提出了Hint-AD,这是一种整合了AD和语言系统的架构,它生成的语言与AD模型的整体感知-预测-规划输出相一致。

2024-09-17 23:34:55 1147

原创 跨域训练评估BEVal:自动驾驶 BEV 的跨数据集评估框架

当前在自动驾驶中的鸟瞰图语义分割研究主要集中在使用单个数据集(通常是nuScenes数据集)优化神经网络模型。这种做法导致了高度专业化的模型,可能在面对不同环境或传感器设置时表现不佳,这被称为域偏移问题。本文对最先进的鸟瞰图(BEV)分割模型进行了全面的跨数据集评估,以评估它们在不同训练和测试数据集、设置以及语义类别下的表现。我们探讨了不同传感器(如摄像头和LiDAR)对模型泛化能力的影响。此外,我们还进行了多数据集训练实验,结果表明相比单数据集训练,模型的BEV分割性能有所提高。

2024-09-17 10:43:37 1077

原创 可信的人类与人工智能协作:基于人类反馈和物理知识的安全自主驾驶强化学习

在自动驾驶领域,开发安全且可信赖的自动驾驶策略仍然是一项重大挑战。近年来,结合人类反馈的强化学习(RLHF)因其提升训练安全性和采样效率的潜力而备受关注。然而,现有的RLHF方法在面对不完美的人类示范时,往往会表现不佳,可能导致训练振荡甚至表现比基于规则的方法更差。受人类学习过程的启发,我们提出了物理增强的人类反馈强化学习(PE-RLHF)。该新框架协同融合了人类反馈(如人类干预和示范)和物理知识(如交通流模型)进入强化学习的训练回路中。

2024-09-12 23:39:25 687

原创 ReLU再进化ReLUMax:自动驾驶的瞬态容错语义分割

度学习模型在自动驾驶感知中至关重要,但其可靠性面临着算法限制和硬件故障的挑战。我们通过研究语义分割模型的容错性来应对后者。使用已有的硬件故障模型,我们在准确性和不确定性方面评估了现有的加固技术,并引入了一种名为ReLUMax的新型激活函数,旨在增强模型对瞬态故障的抵抗力。ReLUMax可以无缝集成到现有架构中,并且不会产生时间开销。我们的实验表明,ReLUMax有效提高了鲁棒性,保持了模型性能并提升了预测的置信度,从而为开发可靠的自动驾驶系统做出了贡献。

2024-09-10 22:37:18 845

原创 震惊,从仿真走向现实,3D Map最大提升超12,Cube R-CNN使用合成数据集迁移到真实数据集

基于图像的 3D 物体检测涉及根据相机捕捉的二维图像确定物体在三维空间中的位置和形状。为了解决这个问题,我们旨在学习一个函数,该函数由参数θ表示,将二维 RGB 图像映射到一组 3D 物体属性,其中代表具有高度 H、宽度 W 和相应相机参数的图像集。具体来说,对于每个图像 i,模型输出每个检测到的物体 j 的属性:类别、3D 位置坐标、尺寸以及偏航-俯仰-滚动角度这个过程可以公式化为:其中表示图像 i 中检测到的物体数量。

2024-09-05 22:31:54 785

原创 夜间追踪数据集(LLOT):涵盖269个场景,13.2万帧数据

Abstract近年来,随着大规模训练数据集的应用,视觉跟踪领域取得了显著进展。这些数据集支持了复杂算法的发展,提高了视觉物体跟踪的准确性和稳定性。然而,大多数研究主要集中在有利的光照环境下,忽视了低光照条件下的跟踪挑战。在低光照场景中,光线可能发生剧烈变化,目标可能缺乏明显的纹理特征,在某些情况下,目标甚至可能无法直接观察到。这些因素会导致跟踪性能严重下降。为了解决这一问题,我们引入了LLOT,这是一个专门为低光照物体跟踪设计的基准。

2024-09-03 23:33:52 1169

原创 使用Mamba运动互补(MV-MOS): 多视角实现3D动态物体分割

高效地总结稠密的3D点云数据并提取运动物体的运动信息(运动物体分割,MOS)对于自动驾驶和机器人应用至关重要。如何有效利用运动和语义特征并在3D到2D投影过程中避免信息丢失仍然是一个关键挑战。本文提出了一种新的多视角MOS模型(MV-MOS),通过融合来自点云不同2D表示的运动-语义特征来解决这一挑战。为了有效利用互补信息,所提出模型的运动分支结合了鸟瞰图(BEV)和距离视图(RV)表示中的运动特征。此外,还引入了一个语义分支,为运动物体提供补充的语义特征。

2024-09-02 23:38:15 852

原创 CARLA Drone: 首个实现从不同空中视角进行单目3D目标检测,并提供数据集

现有的单目3D检测技术存在一个严重的限制。它们通常只能在有限的基准测试集上表现良好,要么在自车视角表现出色,要么在交通摄像机视角表现出色,但很少能同时在两者上表现良好。为了促进这一领域的进展,本文倡导对3D检测框架进行不同相机视角的扩展评估。我们提出了两个关键贡献。首先,我们引入了CARLA无人机数据集CDrone。该数据集模拟了无人机视角,大大增加了现有基准测试集中相机视角的多样性。尽管它是合成数据,但CDrone代表了一种真实的挑战。

2024-08-29 22:56:54 1132

原创 面试被面试官问:3D目标检测预处理优化策略有哪些?

3D目标检测是计算机视觉领域中一个重要的任务,广泛应用于自动驾驶、机器人导航、无人机等领域。由于3D数据的复杂性和多样性,数据预处理在3D目标检测中扮演着关键角色。良好的预处理策略不仅可以提升模型的检测精度,还可以显著提高模型的训练和推理效率。本文将探讨几种常用的3D目标检测预处理优化策略。AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术,关注我,一起学习自动驾驶感知技术。你还知道哪些预处理的方法,留下你的想法?最后别忘了,帮忙点“

2024-08-27 22:30:44 224

原创 面试官面试问:你能写出十种矩阵加法的cuda程序吗?(二)

线程块 (Thread Block):线程块是一组线程的集合,这些线程可以共享数据并通过同步机制协调工作,线程块的大小在执行时固定。AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术,关注我,一起学习自动驾驶感知技术。线程 (Thread):线程是执行基本计算任务的最小单元,每个线程执行相同的代码但处理不同的数据。网格 (Grid):网格是多个线程块的集合,所有线程块并行执行任务,网格的大小同样在执行时固定。在评论区留下你的想法。

2024-08-26 23:06:49 180

原创 GSANet:使用无监督学习实现视频对象分割

无监督视频对象分割的目标是在视频序列中分割出最显著的对象。然而,复杂背景的存在和多个前景对象的出现使这一任务充满挑战。为了解决这个问题,我们提出了一种引导槽注意力网络,以增强空间结构信息并获得更好的前景与背景分离。通过查询引导初始化的前景和背景槽,基于与模板信息的交互对其进行迭代优化。此外,为了改进槽与模板的交互并有效融合目标和参考帧中的全局和局部特征,我们引入了K-近邻过滤和特征聚合转换器。该模型在两个流行数据集上达到了最新的性能水平。此外,通过各种对比实验,我们展示了该模型在复杂场景中的鲁棒性。

2024-08-25 10:54:12 708

原创 开放世界目标检测:检测区分出未知物体

开放世界目标检测旨在识别未见过类别的目标,并在提供注释后逐步识别这些目标。与传统的只限于预定义类别的范式不同,这种设置承诺通过使用与类别无关的信息来持续且通用地估计目标性。然而,实现目标性和类别信息之间的这种去相关化证明是具有挑战性的。在没有明确考虑的情况下,现有方法通常对未知目标的召回率较低,并且可能将它们误分类为已知类别。为了解决这个问题,我们在检测过程中利用了三个层次的正交性:首先,通过在设计的极坐标系统中使用彼此正交的特征集,将目标性和分类头分离。

2024-08-24 09:39:48 885

原创 X射线蒸馏:解决遮挡与稀疏点云3D目标检测

我们介绍了一种新颖的训练框架,以解决基于 LiDAR 数据的 3D 目标检测中稀疏性和遮挡的挑战。该框架不局限于任何特定的目标检测模型,具有在各种深度学习架构中应用的潜力。我们的方法旨在处理结构化为帧序列的 LiDAR 数据。我们的方法的两个核心要素是对象完整帧生成和教师-学生知识蒸馏。我们的 3D 目标检测方法可以应用于监督和半监督设置,两个元素的实现存在微小的差异。对象完整帧生成。在这一步中,我们通过利用同一序列中其他帧的信息来重建场景中对象的完整形状。

2024-08-22 23:42:52 899

原创 特斯拉FSD硬件进化

FSD 芯片主要由 CPU、GPU 和 NNA(神经网络加速单 元)三个计算模块,以及各种接口,片上网络等组成,其中 CPU 由三组四核 ARM Cortex-A72 架构组成,主频 2.2GHz,主要用于通用的计算和任务,GPU 支持 16/32 位浮点运算,算力为 600GFlops,主要用于轻量级的后处理任务,NNA 包括 2 个 NPU(神经网络处理器),每个 NPU 都封装了 32MB 的 SRAM。此外,HW4.0 主板增加了 4D 毫米波雷达接口(代号 Phoenix),但未配置超声波雷达。

2024-08-21 23:04:46 955

原创 不惧恶劣天气(3D-LRF):4D雷达与激光雷达融合感知

我们的框架整体方案如图2所示。该框架以LiDAR点云、4D雷达张量和图像为输入。具体来说,LiDAR点云为,4D雷达张量为,图像为,其中N0、M0、H和W分别表示LiDAR点数、4D雷达点数、图像的高度和宽度。稀疏3D卷积网络作为LiDAR和4D雷达的特征提取骨干网络,以保留其3D信息。L和R首先分别通过输入层,将输入张量映射到更高维的体素特征和。然后,体素特征被输入到各自的三层稀疏3D卷积网络中。每一层提取层级的体素特征和其中l为层的索引,l ∈ {1, 2, 3}。

2024-08-20 23:14:27 1095

原创 特斯拉FSD软件进化史

特斯拉FSD自动驾驶是以摄像头为核心的纯视觉解决方案。纯视觉方案的最初设计灵感来自对人类视觉的研究;即人眼睛搜集的信息到达视网膜后,经过大脑皮层的多个区域、神经层,最终形成生物视觉,并在脑中生成图像。特斯拉的目标就是通过算法、软件及硬件来设计汽车的视觉皮层,建立像人脑一样的、基于视觉的计算机神经网络系统。历经十年,特斯拉自动驾驶软硬件系统不断进化。

2024-08-20 23:05:42 850

原创 开眼看世界(人眼NeRF):使用人眼图像进行重建辐射场

人眼的反射特性是一种未被充分利用的信息源,可以揭示周围世界的样貌。通过拍摄移动中的人物眼睛,我们可以通过眼睛中的反射捕捉到摄像机视线之外的场景的多个视角。在本文中,我们利用包含眼睛反射的肖像图像,重建出摄像机视线之外的辐射场。这项任务具有挑战性,因为两点:1)准确估计眼睛姿态非常困难,2)虹膜纹理与场景反射的外观相互交织。为了解决这些问题,我们的方法共同优化了角膜姿态、描述场景的辐射场以及观察者的虹膜纹理。此外,我们提出了一种针对虹膜纹理的正则化先验,以提高场景重建质量。

2024-08-18 23:10:04 871

原创 端到端自动驾驶与通用机器人

引言一直以来,自动驾驶和机器人是紧密相关相互借鉴和启发的两个行业,本文将讨论自动驾驶早期发展与机器人的历史渊源,以及近年来自动驾驶端到端技术可能对机器人行业的启发;最后,我们将呈现关于物理世界AGI的实现路径的不同观点。

2024-08-17 23:12:41 1006

原创 将Transform骨干网络(T2T-ViT,LV-ViT)加速超31%,使用多准则Tokens融合方法实现高效ViT

视觉Transformer(ViT)已成为计算机视觉领域的主要骨干网络。为了实现更高效的ViT,最近的研究通过剪枝或融合冗余的tokens来减少自注意力层的二次计算成本。然而,这些研究面临着由于信息丢失而导致的速度与精度的权衡。在本文中,我们认为在融合tokens时需要考虑tokens之间的多样化关系,以最大限度地减少信息丢失。为此,我们提出了一种多准则token融合(MCTF)方法,基于多准则(即相似性、信息量和融合后tokens的大小)逐步融合tokens。

2024-08-16 23:14:45 686

原创 PD-LTS:使用多层图卷积将点云映射到潜在空间进行点云去噪

点云数据常常包含噪声和离群点,这给下游应用带来了障碍。在这项工作中,我们引入了一种新的点云去噪方法。通过利用潜在空间,我们可以明确地揭示噪声组件,从而提取出干净的潜在代码。这进一步促进了通过逆变换恢复干净点的过程。我们网络的一个关键组件是一个新的多层图卷积网络,用于捕捉从局部到全局的各种尺度上的丰富几何结构特征。这些特征随后被集成到可逆神经网络中,该网络双射地映射潜在空间,以指导噪声解耦过程。此外,我们采用了可逆单调算子来建模变换过程,有效地增强了集成几何特征的表示。

2024-08-15 22:36:52 721

原创 端到端自动驾驶落地挑战与驱动力

大部分行业专家表示,特斯拉FSD v12的优秀表现,是端到端自动驾驶这一技术路线快速形成大范围共识的最重要的推动力;而在此之前,从来没有一个自动驾驶产品可以让从业者和用户如此便捷地感受到技术带来的体验提升。由第三方网站FSDTracker统计的特斯拉车辆接管里程数据也表明了FSD v12的巨大性能提升。在此前很长一段时间,FSD的版本迭代处于瓶颈期,自2022年初FSD v10更新以来,其接管里程数据保持在稳态波动,行业普遍认为这是传统架构的工程优化陷入瓶颈的表现;

2024-08-14 23:26:11 851

原创 RadSimReal:实现快速模拟各种类型的雷达(Radar)在不同天气下的数据

在雷达影像中的物体检测,借助神经网络展现了极大的潜力,能够提升自动驾驶。然而,从真实雷达图像中获取标注数据集以训练这些网络极具挑战性,特别是在长距离检测以及恶劣天气和光照条件下,雷达表现优越。为了应对这一挑战,我们推出了RadSimReal,一种创新的物理雷达模拟技术,能够生成各种雷达类型和环境条件下的合成雷达图像及其标注数据,无需收集真实数据。

2024-08-13 23:08:13 633

原创 端到端自动驾驶主要玩家

2024年5月20日,小鹏汽车举办AIDay发布会,董事长、CEO何小鹏宣布端到端大模型上车。小鹏的端到端大模型有三个组成部分:神经网络XNet+控大模型XPlanner+大语言模型XBrain。小鹏汽车在发布会上表示,端到端大模型上车后,18个月内小鹏智能驾驶能力将提高30倍,每2天内部将做次智驾模型的送代。2024年4月24日,华为智能汽车解决方案发布会上,华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌一一乾崑,并发布了并发布了ADS3.0。乾崑ADS3.0的技术架构,感知部分采用GOD(Gene

2024-08-12 23:32:04 726

原创 自动驾驶架构进化史:端到端自动驾驶演变

2023年以来,在行业龙头特斯拉的标杆作用、大模型代表的AGI技术范式、以及自动驾驶拟人化和安全性需求的共同推动下,自动驾驶行业对于端到端的关注度一路升温。产业界、学术界和资本市场在端到端自动驾驶领域都有里程碑事件发生。端到端自动驾驶已经成为明确的行业共识。

2024-08-10 22:52:02 1105

原创 3D实例分割BSNet:使用弱监督学习实现生成伪标签,解决标签重叠的问题

3D实例分割(3DIS)是一项关键任务,但在全监督设置中进行点级注释非常繁琐。因此,使用边界框(bboxes)作为注释显示出了巨大的潜力。目前的主流方法是两步过程,包括从边界框注释生成伪标签,然后用伪标签训练3DIS网络。然而,由于边界框之间的交叉存在,不是每个点都有确定的实例标签,尤其是在重叠区域。为了生成更高质量的伪标签并实现更精确的弱监督3DIS结果,我们提出了用于3D实例分割的基于盒监督的模拟辅助平均教师(BSNet),其设计了一种名为模拟辅助Transformer的创新伪标签生成器。

2024-08-09 23:39:26 598

原创 驶向未来(Drive-WM):用于自动驾驶的多视图视觉预测与规划的世界模型

在自动驾驶中,提前预测未来事件和评估可预见的风险使得自动驾驶车辆能够更好地规划其行动,从而提高道路上的安全性和效率。为此,我们提出了Drive-WM,这是第一个兼容现有端到端规划模型的驾驶世界模型。通过视图分解实现的时空联合建模,我们的模型可以在驾驶场景中生成高保真度的多视图视频。基于其强大的生成能力,我们首次展示了将世界模型应用于安全驾驶规划的潜力。特别是,我们的Drive-WM能够基于不同的驾驶动作驶向多个未来,并根据基于图像的奖励确定最优轨迹。

2024-08-09 09:07:22 1056

原创 ChatSim:使用大语言模型代理LLM-Agents实现自动驾驶场景仿真,获取训练数据

自动驾驶中的场景仿真因其在生成定制数据方面的巨大潜力而备受关注。然而,现有的可编辑场景仿真方法在用户交互效率、多摄像头逼真渲染和外部数字资产集成方面存在局限性。为了应对这些挑战,本文介绍了ChatSim,这是第一个通过自然语言命令和外部数字资产实现可编辑逼真3D驾驶场景仿真的系统。为了实现高命令灵活性的编辑,ChatSim利用了一个大语言模型(LLM)代理协作框架。为了生成逼真的结果,ChatSim采用了一种新颖的多摄像头神经辐射场方法。

2024-08-07 23:07:54 1222

原创 Pascal VOC mIoU大涨29%,PnP-OVSS即插即用的开放词汇语义分割的VLMs

从图像-文本对中,大规模视觉-语言模型(VLMs)学习将图像区域与词语隐式关联,这在视觉问答等任务中表现出色。然而,利用这种学习关联进行开放词汇语义分割仍然是一个挑战。本文提出了一种简单但极其有效的无需训练的技术,即即插即用的开放词汇语义分割(PnP-OVSS)。PnP-OVSS利用VLM进行直接的文本到图像交叉注意和图像-文本匹配损失。为了在过度分割和欠分割之间取得平衡,我们引入了显著性丢弃,通过迭代地丢弃模型最关注的图像块,我们能够更好地解决分割掩码的整体范围。

2024-08-06 23:19:47 733

原创 LTrack:实现夜间多目标追踪,并开放低光多目标追踪数据集LMOT

低光场景在现实应用中很常见(例如,夜间的自动驾驶和监控)。最近,多目标跟踪在各种实际用例中受到了很多关注,但黑暗场景中的多目标跟踪却很少被考虑。在本文中,我们专注于黑暗场景中的多目标跟踪。为了应对数据集的缺乏,我们首先建立了一个低光多目标跟踪(LMOT)数据集。LMOT提供了通过我们的双摄像头系统捕获的对齐良好的低光视频对,并为所有视频提供高质量的多目标跟踪注释。然后,我们提出了一种低光多目标跟踪方法,称为LTrack。我们引入了自适应低通下采样模块,以增强图像中传感器噪声之外的低频成分。

2024-08-05 22:24:09 1058

原创 相机无须标定,使用基础矩阵F实现多相机内参自标定

从给定的基本矩阵中进行两个摄像头的自我校准问题是几何计算机视觉中的基本问题之一。在已知主点和正方形像素的假设下,Bougnoux公式提供了一种计算两个未知焦距的方法。然而,在许多实际情况下,由于常见的奇异性,公式会产生不准确的结果。此外,估算值对计算出的基本矩阵中的噪声和假定的主点位置非常敏感。因此,在本文中,我们提出了一种高效且鲁棒的迭代方法,用于估计给定基本矩阵和相机内参估计先验值的焦距和主点。

2024-08-05 21:41:32 1025

原创 三分钟了解自动驾驶中视觉Transform应用:视觉Transoform自动驾驶综述

Transform架构是一项突破性创新,通过利用注意力机制进行序列处理,标志着从传统循环层的转变。它由两个主要部分组成:编码器和解码器。编码器通过多头注意力和前馈网络处理输入嵌入,两者都通过层规范化和残差连接得到增强。解码器结构与编码器相似,也聚焦于编码器输出,生成最终的输出序列。位置编码在此架构中至关重要,因为它们使模型能够识别序列顺序,这一关键特性是Transform本身无法辨别词序的。此功能对于把握语言上下文至关重要,使得位置编码成为Transform设计的基本组成部分。

2024-08-04 20:20:10 804

原创 自动驾驶将驶向何方?大模型(World Models)自动驾驶综述

自动驾驶系统的开发是一个技术与哲学的双重挑战,核心在于模拟人类的直觉推理和常识。尽管机器学习在模式识别上取得了进展,但在复杂情境下仍存在局限。人类决策基于感官感知,但能预见行动结果和预判变化,这是机器难以复制的。世界模型是解决这一差距的关键,它模仿人类的感知和决策,使系统能预测和适应环境。这一概念从70年代的控制理论发展而来,与模型预测控制(MPC)紧密相关,并受到心理模型理论的支持。神经网络的发展,尤其是循环神经网络(RNN),为动态系统建模提供了新深度,促进了对环境交互的理解。

2024-08-02 22:00:03 1095

原创 一文解决3D车道线检测:最新单目3D车道线检测综述

场景理解是自动驾驶中极具挑战的任务,尤其是车道检测。车道是道路分割的关键,对车辆安全高效行驶至关重要。车道检测技术能自动识别道路标记,对自动驾驶车辆至关重要,缺乏这项技术可能导致交通问题和事故。车道检测面临多种挑战,包括车道标记的小尺寸、广泛分布、多种车道类型、光线条件、障碍物和纹理干扰等。

2024-08-01 22:36:08 1117

原创 一文学会CUDA编程:深入了解CUDA编程与架构(一)

CUDA(Compute Unified Device Architecture,统一计算设备架构)是由NVIDIA公司开发的一种并行计算平台和编程模型。CUDA于2006年发布,旨在通过图形处理器(GPU)解决复杂的计算问题。在早期,GPU主要用于图像处理和游戏渲染,但随着技术的发展,其并行计算能力被广泛应用于科学计算、工程仿真、深度学习等领域。

2024-07-31 22:00:16 1138

原创 当自动驾驶遇上扩散模型(Panacea): 生成自动驾驶BEV数据集

在自动驾驶领域,对高质量的标注训练数据的需求日益增加。在本文中,我们提出了Panacea,这是一种创新的方法,用于生成驾驶场景中的全景和可控视频,能够生成无限数量的多样化、标注的样本,对于自动驾驶的进步至关重要。Panacea解决了两个关键问题:“一致性”和“可控性”。一致性确保了时间和跨视角的一致性,而可控性确保了生成内容与相应标注的对齐。我们的方法结合了新颖的4D注意力机制和两阶段生成管道来保持一致性,并通过ControlNet框架对鸟瞰图(BEV)布局进行细致控制。

2024-07-30 22:20:05 933

原创 无惧畸变,通过追踪矩实现亚像素检测,提高标定精度(支持红外相机)

在文献中,点和圆锥曲线是相机几何标定的主要特征。尽管圆锥曲线比点提供了更多的信息,然而在畸变下丧失圆锥曲线的特性严重限制了其在相机标定中的应用。许多现有的方法通过忽略畸变或引入三维球形目标来规避这一限制。本文提出了一种新的基于矩的圆锥曲线标定方法。我们的推导基于数学发现,即使在畸变下,第一个矩也可以无偏估计。这使我们能够在投影和畸变过程中跟踪矩的变化,确保畸变圆锥的第一个矩的保留。通过无偏估计,圆形图案可以在亚像素级别准确检测,从而可以在整个标定流程中充分利用这些图案,显著提高标定精度。

2024-07-29 21:54:23 683

相机与多线激光联合标定

整个项目基于 ros,配置简单,来源 autoware, 增加实时显示点云映射,点云相机方向投影。 需要储备知识:ros~

2020-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除