- 博客(113)
- 资源 (1)
- 收藏
- 关注
原创 复旦大学提出基于Mamba的轨迹预测模型DeMo: 将运动预测解耦为方向意图和动态状态
给定高清地图(HD map)和驾驶场景中的主体,运动预测旨在为感兴趣的主体预测未来轨迹。高清地图由多个车道或交叉路口的折线组成,而主体是交通参与者,如车辆和行人。为了将这些元素转化为易于处理和学习的输入,我们采用了一种流行的向量化表示,参考文献。具体而言,地图是通过将每条线段分割成若干较短的段生成的,其中、和分别表示地图折线的数量、分段数和特征通道。我们将主体的历史信息表示为,其中和分别是主体数量、历史时间戳和运动状态(如位置、航向角、速度)。此外,感兴趣主体的未来轨迹是估计的目标,
2024-11-03 19:32:40 444
原创 规划误差降低27%,碰撞率降低33%Senna: 大规模视觉-语言模型与端到端自动驾驶相结合
端到端自动驾驶在大规模数据中展示了强大的规划能力,但在复杂、罕见的场景中仍然因常识有限而表现不佳。相比之下,大型视觉语言模型(LVLMs)在场景理解和推理方面表现出色。前进的方向在于融合两者的优势。以往利用LVLMs预测轨迹或控制信号的方法效果不佳,因为LVLMs并不适合精确的数值预测。本文提出了Senna,一个结合LVLM(Senna-VLM)与端到端模型(Senna-E2E)的自动驾驶系统。Senna将高层次规划与低层次轨迹预测分离。
2024-10-31 20:40:52 395
原创 如何快速将特斯拉3D感知移植到擎天柱?有可能只需要HeightFormer
车载3D目标检测技术作为自动驾驶的关键技术受到了广泛关注,但很少有研究关注在3D交通目标检测中应用路边传感器。现有研究通过基于棱锥体的高度估计实现了2D图像特征到3D特征的投影。然而,它们没有考虑高度对齐和鸟瞰视角(BEV)特征提取的效率。为了解决这些问题,我们提出了一种结合空间变换器和体素池化变换器的新型3D目标检测框架,以增强基于高度估计的2D到3D投影。在Rope3D和DAIR-V2X-I数据集上进行了大量实验,结果表明该算法在车辆和骑行者检测方面具有显著的优势。
2024-10-29 20:02:31 901
原创 断其一指,无惧!ProFusion3D: 相机或者激光失效仍高效的多传感器融合3D目标检测算法
多传感器融合在自动驾驶中的3D目标检测中至关重要,摄像头和激光雷达是最常用的传感器。然而,现有方法通常通过将两种模态的特征投影到鸟瞰视角(BEV)或透视视角(PV)来进行单视角的传感器融合,从而牺牲了高度或几何比例等互补信息。为了解决这个问题,我们提出了ProFusion3D,一种渐进融合框架,它在中间特征和目标查询级别中同时结合了BEV和PV中的特征。我们的架构通过分层融合局部和全局特征,提高了3D目标检测的鲁棒性。
2024-10-27 20:35:18 478
原创 不到4B的多模态大语言模型Mini-InternVL:能快速迁移到自动驾驶的口袋多模态模型
多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,涵盖了广泛的领域。然而,大规模模型和高计算成本给在消费级GPU或边缘设备上的训练和部署带来了巨大挑战,从而阻碍了其广泛应用。为了解决这个问题,我们推出了Mini-InternVL,一系列参数在1B到4B之间的多模态大语言模型,其性能可达90%,但参数量仅为5%。这种显著的效率和效果提升,使我们的模型在各种实际场景中更加易于使用和应用。
2024-10-25 20:18:59 741
原创 断其一指,无惧!ProFusion3D: 相机或者激光失效仍高效的多传感器融合3D目标检测算法
多传感器融合在自动驾驶中的3D目标检测中至关重要,摄像头和激光雷达是最常用的传感器。然而,现有方法通常通过将两种模态的特征投影到鸟瞰视角(BEV)或透视视角(PV)来进行单视角的传感器融合,从而牺牲了高度或几何比例等互补信息。为了解决这个问题,我们提出了ProFusion3D,一种渐进融合框架,它在中间特征和目标查询级别中同时结合了BEV和PV中的特征。我们的架构通过分层融合局部和全局特征,提高了3D目标检测的鲁棒性。
2024-10-22 21:10:59 502
原创 最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标
低光照图像增强(LLIE)对于许多计算机视觉任务至关重要,包括目标检测、跟踪、分割和场景理解。尽管已有大量研究致力于提高在低光照条件下捕捉的低质量图像,但在自动驾驶车辆中,清晰的视觉仍然至关重要,尤其是在低光场景中,这表明这一领域需要持续研究。然而,用于LLIE的成对数据集十分稀缺,尤其是在街景领域,这限制了鲁棒LLIE方法的发展。尽管当前的LLIE方法使用了先进的transformer和/或基于扩散的模型,但它们在真实世界的低光条件下表现不佳,并且缺乏针对街景数据集的训练,降低了它们在自动驾驶中的有效性。
2024-10-21 21:55:21 642
原创 NTA-IoU指标提升超42%,北京大学提出首个使用世界模型提升自动驾驶场景重建质量DriveDreamer4D
闭环仿真是推进端到端自动驾驶系统的重要环节。当代传感器仿真方法,如NeRF和3DGS,主要依赖与训练数据分布高度一致的条件,这通常局限于前向驾驶场景。因此,这些方法在渲染复杂的机动动作(如变道、加速、减速)时存在局限性。近年来,自动驾驶世界模型在生成多样化驾驶视频方面展现了潜力,但这些方法仍然局限于二维视频生成,无法捕捉动态驾驶环境所需的时空一致性。在本文中,我们提出了DriveDreamer4D,通过利用世界模型先验知识提升4D驾驶场景表示。
2024-10-20 21:50:28 783
原创 断其一指,无惧!ProFusion3D: 相机或者激光失效仍高效的多传感器融合3D目标检测算法
多传感器融合在自动驾驶中的3D目标检测中至关重要,摄像头和激光雷达是最常用的传感器。然而,现有方法通常通过将两种模态的特征投影到鸟瞰视角(BEV)或透视视角(PV)来进行单视角的传感器融合,从而牺牲了高度或几何比例等互补信息。为了解决这个问题,我们提出了ProFusion3D,一种渐进融合框架,它在中间特征和目标查询级别中同时结合了BEV和PV中的特征。我们的架构通过分层融合局部和全局特征,提高了3D目标检测的鲁棒性。
2024-10-19 21:00:58 1009
原创 北京大学与长安汽车联合发布TEOcc: 时域增强的多模态占据预测
作为一种新颖的3D场景表示,语义占据(semantic occupancy)在自动驾驶领域引起了广泛关注。然而,现有的占据预测方法主要集中于设计更好的占据表示形式,例如三视角(tri-perspective view)或神经辐射场(NeRF),而忽视了利用长时段信息的优势。本文提出了一种雷达-摄像头多模态时域增强占据预测网络,称为 TEOcc。我们的方法受益于3D目标检测中利用时域信息的成功经验。具体来说,我们引入了一个时域增强分支,用于学习时域占据预测。
2024-10-18 19:46:37 1015
原创 中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo:推进交互式与知识丰富的驾驶世界模型
驾驶世界模型因其对复杂物理动态的建模能力而受到越来越多的关注。然而,由于现有驾驶数据集中的视频多样性有限,其卓越的建模能力尚未得到充分发挥。为此,我们引入了 DrivingDojo,这是首个专门为训练具有复杂驾驶动态的交互式世界模型量身定制的数据集。该数据集包含完整的驾驶操作、多样化的多主体交互,以及丰富的开放世界驾驶知识,为未来世界模型的发展奠定了基础。我们进一步定义了一个基于行动指令跟随 (AIF) 的基准测试,展示了所提出数据集在生成行动控制的未来预测中的优势。
2024-10-17 21:18:07 961
原创 最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标
低光照图像增强(LLIE)对于许多计算机视觉任务至关重要,包括目标检测、跟踪、分割和场景理解。尽管已有大量研究致力于提高在低光照条件下捕捉的低质量图像,但在自动驾驶车辆中,清晰的视觉仍然至关重要,尤其是在低光场景中,这表明这一领域需要持续研究。然而,用于LLIE的成对数据集十分稀缺,尤其是在街景领域,这限制了鲁棒LLIE方法的发展。尽管当前的LLIE方法使用了先进的transformer和/或基于扩散的模型,但它们在真实世界的低光条件下表现不佳,并且缺乏针对街景数据集的训练,降低了它们在自动驾驶中的有效性。
2024-10-16 21:23:49 924
原创 开放词汇多目标追踪框架SLAck: 联合语义、位置和外观感知的启发式跟踪
我们的方法建立在预训练的开放或大词汇检测器之上,并对其进行扩展以实现追踪。我们直接从检测器中提取所有信息,如语义、位置和外观。然后,我们将这些线索与一个时空对象图结合,以推理关联分配。我们的流程简单且端到端,无需额外的启发式方法来混合不同的线索。模型通过差分Sinkhorn-Knopp算法输出一个分配矩阵。此外,为了处理TAO数据集中不完整的标注,我们直接使用预测的检测框和TAO的稀疏标注作为关联学习的输入。我们称这种策略为检测感知训练(Detection Aware Training)。
2024-10-12 21:38:25 894
原创 上海AI实验室CVT-Occ时间融合利用视差搜索刷新occ3DWaymo SOTA
基于视觉的3D占据预测由于单目视觉在深度估计上的固有局限性而面临显著挑战。本文介绍了CVT-Occ,一种新颖的方法,通过时间上的体素几何对应进行时间融合,以提高3D占据预测的准确性。通过在每个体素的视线方向上采样点并整合这些点的历史帧特征,我们构建了一个代价体积特征图,从而优化当前体积特征以改进预测结果。我们的方法利用了历史观察中的视差线索,并采用数据驱动的方法学习代价体积。通过在Occ3D-Waymo数据集上的严格实验验证了CVT-Occ的有效性,在3D占据预测任务上以最小的额外计算成本超越了最新的方法。
2024-10-12 10:01:36 831
原创 跨多场景帧重建DENSER:使用小波估计进行城市动态场景重构
本文提出了一种名为DENSER的高效方法,该方法利用三维高斯点云(3DGS)技术来重建动态城市环境。尽管通过神经辐射场(NeRF)隐式方法和3DGS显式方法的若干场景重建技术在较复杂的动态场景中展示了出色的效果,但在建模前景物体的动态外观时仍存在挑战,特别是在处理远距离动态物体时。为此,我们提出了DENSER框架,该框架显著增强了动态物体的表现能力,能够精准建模驾驶场景中的动态物体外观。
2024-09-28 22:24:51 906
原创 多车合作自动驾驶框架CoDrivingLLM:基于大语言模型驱动的决策框架
目前,全球范围内已开始对联网自动驾驶汽车(CAVs)进行道路测试,但它们在复杂场景中的安全性和效率表现仍不令人满意。合作驾驶利用CAVs的连接能力,通过协同作用超越个体表现,使其成为在复杂场景中提高CAV性能的有前途方法。然而,缺乏交互和持续学习能力限制了当前的合作驾驶仅能应用于单一场景和特定的合作驾驶自动化(CDA)。为了解决这些挑战,本文提出了一种交互式和可学习的基于大型语言模型(LLM)的合作驾驶框架——CoDrivingLLM,以实现全场景和全CDA。
2024-09-28 22:18:40 763
原创 南开大学联合同济大学发布最新SOTA Occ OPUS:使用稀疏集进行占据预测,最快实现8帧22FPS
占据预测任务旨在预测体素化的 3D 环境中的占据状态,在自动驾驶社区中迅速获得了关注。主流的占据预测工作首先将 3D 环境离散化为体素网格,然后在这些密集网格上执行分类。然而,对样本数据的检查显示,大多数体素是未占据的。对这些空体素执行分类需要次优的计算资源分配,并且减少这些空体素需要复杂的算法设计。为此,我们提出了一个新的占据预测视角:将其公式化为简化的集合预测范式,无需显式的空间建模或复杂的稀疏化程序。
2024-09-25 23:02:19 930
原创 在线地图构建GenMapping:使用IPM实现三重增强,语义映射mIou提升超17%
在线高清(HD)地图已成为自动驾驶的首选方案,凭借其灵活的更新能力和较低的维护成本,逐渐超越了离线高清地图。然而,现有的在线高清地图模型将视觉传感器的参数嵌入训练过程中,导致在应用于不同参数的视觉传感器时泛化性能显著下降。受到逆透视映射(IPM)固有潜力的启发,IPM 可以在训练过程中解耦相机参数,我们设计了一个通用的地图生成框架——GenMapping。该框架基于三重协同架构,包括主分支和两个辅助分支。当通过 IPM 转换的粗糙路面图像伴随局部失真时,主分支在状态空间模型下学习鲁棒的全局特征。
2024-09-22 10:16:30 912
原创 定位百度Apollo事故原因SoVAR: 使用LLM重构自动驾驶事故场景
SoVAR只需要事故的描述性文本来提取信息,而无需依赖其他数据。与当前的场景重建工作一致,SoVAR专注于主要的车祸影响因素,即照明、天气、道路和车辆运动。它直接使用LLM提取信息,而不引入新的信息。为了抽象表示事故信息并将其组织成LLM能够理解的语义结构,我们提出了分层表示的方式,将提取的信息分为三个层次:道路、环境和动态对象。表1显示了提取属性的详细描述和示例。如果事故报告中缺少信息,说明这些缺失的细节对事故不重要。SoVAR具有很强的通用性,因为它可以在必要时自动分配默认值。
2024-09-22 10:07:00 1435
原创 启发式生成最佳轨迹ReGentS:超32个智能体生成现实世界的安全关键驾驶场景
基于机器学习的自动驾驶系统经常面临安全关键场景的挑战,而这些场景在真实世界的数据中较为罕见,从而阻碍了其大规模部署。虽然增加真实世界训练数据的覆盖范围可以解决这个问题,但代价高昂且存在危险。本研究通过轨迹优化,探索通过修改复杂的真实世界常规场景来生成安全关键驾驶场景。我们提出了ReGentS,该方法通过稳定生成的轨迹并引入启发式方法来避免明显的碰撞和优化问题。我们的方法解决了不现实的分离轨迹和不可避免的碰撞场景,这些场景对训练鲁棒的规划器没有用处。
2024-09-19 22:47:05 1064
原创 实时性视觉语言模型MiniDrive:使用多帧图像给语言模型为自动驾驶文本标记
视觉-语言模型(VLMs)作为自动驾驶中的通用端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算开销大的视觉编码器和大型语言模型(LLMs),使其在现实场景和实时应用中难以部署。同时,大多数现有的VLMs缺乏处理多张图像的能力,难以适应自动驾驶中的多摄像头感知。为了解决这些问题,我们提出了一个名为MiniDrive的全新框架,该框架结合了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。
2024-09-18 23:23:30 827
原创 智能车贾维斯诞生Hint-AD:使用人类语言的整体一致的可解释性端到端自动驾驶
自动驾驶 (AD) 中的端到端架构面临着解释性问题,阻碍了人类对AI的信任。人性化的自然语言已被用于驾驶解释和三维场景描述等任务。然而,之前的工作主要集中在声明性可解释性的范式上,自然语言解释并未基于AD系统的中间输出,这使得解释仅仅是声明性的。相比之下,对齐式可解释性则在语言和AD系统的中间输出之间建立了联系。本文提出了Hint-AD,这是一种整合了AD和语言系统的架构,它生成的语言与AD模型的整体感知-预测-规划输出相一致。
2024-09-17 23:34:55 1203
原创 跨域训练评估BEVal:自动驾驶 BEV 的跨数据集评估框架
当前在自动驾驶中的鸟瞰图语义分割研究主要集中在使用单个数据集(通常是nuScenes数据集)优化神经网络模型。这种做法导致了高度专业化的模型,可能在面对不同环境或传感器设置时表现不佳,这被称为域偏移问题。本文对最先进的鸟瞰图(BEV)分割模型进行了全面的跨数据集评估,以评估它们在不同训练和测试数据集、设置以及语义类别下的表现。我们探讨了不同传感器(如摄像头和LiDAR)对模型泛化能力的影响。此外,我们还进行了多数据集训练实验,结果表明相比单数据集训练,模型的BEV分割性能有所提高。
2024-09-17 10:43:37 1106
原创 可信的人类与人工智能协作:基于人类反馈和物理知识的安全自主驾驶强化学习
在自动驾驶领域,开发安全且可信赖的自动驾驶策略仍然是一项重大挑战。近年来,结合人类反馈的强化学习(RLHF)因其提升训练安全性和采样效率的潜力而备受关注。然而,现有的RLHF方法在面对不完美的人类示范时,往往会表现不佳,可能导致训练振荡甚至表现比基于规则的方法更差。受人类学习过程的启发,我们提出了物理增强的人类反馈强化学习(PE-RLHF)。该新框架协同融合了人类反馈(如人类干预和示范)和物理知识(如交通流模型)进入强化学习的训练回路中。
2024-09-12 23:39:25 750
原创 ReLU再进化ReLUMax:自动驾驶的瞬态容错语义分割
度学习模型在自动驾驶感知中至关重要,但其可靠性面临着算法限制和硬件故障的挑战。我们通过研究语义分割模型的容错性来应对后者。使用已有的硬件故障模型,我们在准确性和不确定性方面评估了现有的加固技术,并引入了一种名为ReLUMax的新型激活函数,旨在增强模型对瞬态故障的抵抗力。ReLUMax可以无缝集成到现有架构中,并且不会产生时间开销。我们的实验表明,ReLUMax有效提高了鲁棒性,保持了模型性能并提升了预测的置信度,从而为开发可靠的自动驾驶系统做出了贡献。
2024-09-10 22:37:18 874
原创 震惊,从仿真走向现实,3D Map最大提升超12,Cube R-CNN使用合成数据集迁移到真实数据集
基于图像的 3D 物体检测涉及根据相机捕捉的二维图像确定物体在三维空间中的位置和形状。为了解决这个问题,我们旨在学习一个函数,该函数由参数θ表示,将二维 RGB 图像映射到一组 3D 物体属性,其中代表具有高度 H、宽度 W 和相应相机参数的图像集。具体来说,对于每个图像 i,模型输出每个检测到的物体 j 的属性:类别、3D 位置坐标、尺寸以及偏航-俯仰-滚动角度这个过程可以公式化为:其中表示图像 i 中检测到的物体数量。
2024-09-05 22:31:54 828
原创 夜间追踪数据集(LLOT):涵盖269个场景,13.2万帧数据
Abstract近年来,随着大规模训练数据集的应用,视觉跟踪领域取得了显著进展。这些数据集支持了复杂算法的发展,提高了视觉物体跟踪的准确性和稳定性。然而,大多数研究主要集中在有利的光照环境下,忽视了低光照条件下的跟踪挑战。在低光照场景中,光线可能发生剧烈变化,目标可能缺乏明显的纹理特征,在某些情况下,目标甚至可能无法直接观察到。这些因素会导致跟踪性能严重下降。为了解决这一问题,我们引入了LLOT,这是一个专门为低光照物体跟踪设计的基准。
2024-09-03 23:33:52 1242
原创 使用Mamba运动互补(MV-MOS): 多视角实现3D动态物体分割
高效地总结稠密的3D点云数据并提取运动物体的运动信息(运动物体分割,MOS)对于自动驾驶和机器人应用至关重要。如何有效利用运动和语义特征并在3D到2D投影过程中避免信息丢失仍然是一个关键挑战。本文提出了一种新的多视角MOS模型(MV-MOS),通过融合来自点云不同2D表示的运动-语义特征来解决这一挑战。为了有效利用互补信息,所提出模型的运动分支结合了鸟瞰图(BEV)和距离视图(RV)表示中的运动特征。此外,还引入了一个语义分支,为运动物体提供补充的语义特征。
2024-09-02 23:38:15 887
原创 CARLA Drone: 首个实现从不同空中视角进行单目3D目标检测,并提供数据集
现有的单目3D检测技术存在一个严重的限制。它们通常只能在有限的基准测试集上表现良好,要么在自车视角表现出色,要么在交通摄像机视角表现出色,但很少能同时在两者上表现良好。为了促进这一领域的进展,本文倡导对3D检测框架进行不同相机视角的扩展评估。我们提出了两个关键贡献。首先,我们引入了CARLA无人机数据集CDrone。该数据集模拟了无人机视角,大大增加了现有基准测试集中相机视角的多样性。尽管它是合成数据,但CDrone代表了一种真实的挑战。
2024-08-29 22:56:54 1214
原创 面试被面试官问:3D目标检测预处理优化策略有哪些?
3D目标检测是计算机视觉领域中一个重要的任务,广泛应用于自动驾驶、机器人导航、无人机等领域。由于3D数据的复杂性和多样性,数据预处理在3D目标检测中扮演着关键角色。良好的预处理策略不仅可以提升模型的检测精度,还可以显著提高模型的训练和推理效率。本文将探讨几种常用的3D目标检测预处理优化策略。AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术,关注我,一起学习自动驾驶感知技术。你还知道哪些预处理的方法,留下你的想法?最后别忘了,帮忙点“
2024-08-27 22:30:44 250
原创 面试官面试问:你能写出十种矩阵加法的cuda程序吗?(二)
线程块 (Thread Block):线程块是一组线程的集合,这些线程可以共享数据并通过同步机制协调工作,线程块的大小在执行时固定。AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术,关注我,一起学习自动驾驶感知技术。线程 (Thread):线程是执行基本计算任务的最小单元,每个线程执行相同的代码但处理不同的数据。网格 (Grid):网格是多个线程块的集合,所有线程块并行执行任务,网格的大小同样在执行时固定。在评论区留下你的想法。
2024-08-26 23:06:49 191
原创 GSANet:使用无监督学习实现视频对象分割
无监督视频对象分割的目标是在视频序列中分割出最显著的对象。然而,复杂背景的存在和多个前景对象的出现使这一任务充满挑战。为了解决这个问题,我们提出了一种引导槽注意力网络,以增强空间结构信息并获得更好的前景与背景分离。通过查询引导初始化的前景和背景槽,基于与模板信息的交互对其进行迭代优化。此外,为了改进槽与模板的交互并有效融合目标和参考帧中的全局和局部特征,我们引入了K-近邻过滤和特征聚合转换器。该模型在两个流行数据集上达到了最新的性能水平。此外,通过各种对比实验,我们展示了该模型在复杂场景中的鲁棒性。
2024-08-25 10:54:12 732
原创 开放世界目标检测:检测区分出未知物体
开放世界目标检测旨在识别未见过类别的目标,并在提供注释后逐步识别这些目标。与传统的只限于预定义类别的范式不同,这种设置承诺通过使用与类别无关的信息来持续且通用地估计目标性。然而,实现目标性和类别信息之间的这种去相关化证明是具有挑战性的。在没有明确考虑的情况下,现有方法通常对未知目标的召回率较低,并且可能将它们误分类为已知类别。为了解决这个问题,我们在检测过程中利用了三个层次的正交性:首先,通过在设计的极坐标系统中使用彼此正交的特征集,将目标性和分类头分离。
2024-08-24 09:39:48 1050
原创 X射线蒸馏:解决遮挡与稀疏点云3D目标检测
我们介绍了一种新颖的训练框架,以解决基于 LiDAR 数据的 3D 目标检测中稀疏性和遮挡的挑战。该框架不局限于任何特定的目标检测模型,具有在各种深度学习架构中应用的潜力。我们的方法旨在处理结构化为帧序列的 LiDAR 数据。我们的方法的两个核心要素是对象完整帧生成和教师-学生知识蒸馏。我们的 3D 目标检测方法可以应用于监督和半监督设置,两个元素的实现存在微小的差异。对象完整帧生成。在这一步中,我们通过利用同一序列中其他帧的信息来重建场景中对象的完整形状。
2024-08-22 23:42:52 924
原创 特斯拉FSD硬件进化
FSD 芯片主要由 CPU、GPU 和 NNA(神经网络加速单 元)三个计算模块,以及各种接口,片上网络等组成,其中 CPU 由三组四核 ARM Cortex-A72 架构组成,主频 2.2GHz,主要用于通用的计算和任务,GPU 支持 16/32 位浮点运算,算力为 600GFlops,主要用于轻量级的后处理任务,NNA 包括 2 个 NPU(神经网络处理器),每个 NPU 都封装了 32MB 的 SRAM。此外,HW4.0 主板增加了 4D 毫米波雷达接口(代号 Phoenix),但未配置超声波雷达。
2024-08-21 23:04:46 1092
原创 不惧恶劣天气(3D-LRF):4D雷达与激光雷达融合感知
我们的框架整体方案如图2所示。该框架以LiDAR点云、4D雷达张量和图像为输入。具体来说,LiDAR点云为,4D雷达张量为,图像为,其中N0、M0、H和W分别表示LiDAR点数、4D雷达点数、图像的高度和宽度。稀疏3D卷积网络作为LiDAR和4D雷达的特征提取骨干网络,以保留其3D信息。L和R首先分别通过输入层,将输入张量映射到更高维的体素特征和。然后,体素特征被输入到各自的三层稀疏3D卷积网络中。每一层提取层级的体素特征和其中l为层的索引,l ∈ {1, 2, 3}。
2024-08-20 23:14:27 1206
原创 特斯拉FSD软件进化史
特斯拉FSD自动驾驶是以摄像头为核心的纯视觉解决方案。纯视觉方案的最初设计灵感来自对人类视觉的研究;即人眼睛搜集的信息到达视网膜后,经过大脑皮层的多个区域、神经层,最终形成生物视觉,并在脑中生成图像。特斯拉的目标就是通过算法、软件及硬件来设计汽车的视觉皮层,建立像人脑一样的、基于视觉的计算机神经网络系统。历经十年,特斯拉自动驾驶软硬件系统不断进化。
2024-08-20 23:05:42 1071
原创 开眼看世界(人眼NeRF):使用人眼图像进行重建辐射场
人眼的反射特性是一种未被充分利用的信息源,可以揭示周围世界的样貌。通过拍摄移动中的人物眼睛,我们可以通过眼睛中的反射捕捉到摄像机视线之外的场景的多个视角。在本文中,我们利用包含眼睛反射的肖像图像,重建出摄像机视线之外的辐射场。这项任务具有挑战性,因为两点:1)准确估计眼睛姿态非常困难,2)虹膜纹理与场景反射的外观相互交织。为了解决这些问题,我们的方法共同优化了角膜姿态、描述场景的辐射场以及观察者的虹膜纹理。此外,我们提出了一种针对虹膜纹理的正则化先验,以提高场景重建质量。
2024-08-18 23:10:04 909
原创 端到端自动驾驶与通用机器人
引言一直以来,自动驾驶和机器人是紧密相关相互借鉴和启发的两个行业,本文将讨论自动驾驶早期发展与机器人的历史渊源,以及近年来自动驾驶端到端技术可能对机器人行业的启发;最后,我们将呈现关于物理世界AGI的实现路径的不同观点。
2024-08-17 23:12:41 1095
原创 将Transform骨干网络(T2T-ViT,LV-ViT)加速超31%,使用多准则Tokens融合方法实现高效ViT
视觉Transformer(ViT)已成为计算机视觉领域的主要骨干网络。为了实现更高效的ViT,最近的研究通过剪枝或融合冗余的tokens来减少自注意力层的二次计算成本。然而,这些研究面临着由于信息丢失而导致的速度与精度的权衡。在本文中,我们认为在融合tokens时需要考虑tokens之间的多样化关系,以最大限度地减少信息丢失。为此,我们提出了一种多准则token融合(MCTF)方法,基于多准则(即相似性、信息量和融合后tokens的大小)逐步融合tokens。
2024-08-16 23:14:45 721
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人