绝影智能SenseAuto-CSDN博客

原创一段式端到端vs两段式端到端，到底哪个好

在大模型的轻量化部署和持续迭代方面具备深厚的技术积累，使得绝影能够快速实现一段式端到端自动驾驶方案的车端部署并上路测试，持续引领端到端自动驾驶的前沿潮流。一段式端到端采用的是类似ChatGPT的训练方式，2022年底，商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型——UniAD，采用的就是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中，也就是由传感器直接输入外部环境信息，直接输出自车行驶轨迹，实现信息的无损传递，从而做出更精准的决策。

2024-08-19 22:03:14 525

原创【揭秘多模态】多模态大模型，驶向AGI时代的核心推动力

此前，多模态更多的指对于 3V 模态的支持，即Verbal(文本)、Vocal(语音)和Visual(视觉)，很多经典的人工智能任务都是基于这三大类模态之间的相互转化，根据图像生成文本的「图像描述任务」，类似小学生的看图作文，也有反过来根据文本描述生成图像的「图像生成任务」。」体系支持的全新商汤多模态大模型是更为领先的技术方案。比如，我们要了解一辆车，不会只是依靠单纯文字的描述，还会找各种外观和内饰图片、找视频来看，甚至还要亲自试乘试驾，触摸车辆，驾驶车辆，收集各种模态的信息来形成对于这辆车的认知和理解。

2024-08-19 10:27:17 833

原创 Vision Pro“裸眼上车”，商汤绝影全新舱内3D交互惊艳亮相

以海量的三维数据为基础，商汤绝影实现了技术从2D到3D的迅速突破，为3D手势交互打下坚强基础。2023年，Apple Vision Pro的横空出世让人们领略到了3D交互的魅力，商汤绝影通过深厚的技术研发实力和高效的创新迭代效率，带来两大全新座舱3D交互：3D Gaze高精视线交互和3D动态手势交互。3D手势交互是以超高精的三维手部重建为基础，实时捕捉、识别与分析用户的三维手势动作，实现对车辆功能控制的技术，商汤绝影在北京车展首发座舱内3D手势交互，带来高精度、高稳定性、快速响应的全新交互体验。

2024-05-08 15:00:33 335

原创 BEV 环视感知算法，能否摆脱预训练？

在视觉领域，通用的图像主干网络在近几年发展迅速，如：CNN 结构的 ConvNext，InternImage、ViT（Transformer结构），Swin Transformer 等等，这些模型的新结构、大规模，让其 2D 感知任务的性能取得了显著提升。通过实验，我们验证了透视监督（perspective supervision）的通用性，对于不同的主干网络，我们的方法均能带来明显的提升，NDS 和 mAP 分别提升约 3 个点和 2 个点，而 2D 检测标注数据相对较多，同时通用的检测分类极其丰富。

2024-04-16 18:01:05 1277

原创「百万级」仿真场景库积累，为智驾研发「降本增效」

在仿真运行过程中，环境车辆行为的多样性、交互性、真实性是确保仿真有效的关键，即仿真中环境车辆的行为要尽量接近真实世界的车辆行为，这也是目前市场上很多仿真软件的弱势，如Sumo、 VISSIM等仿真软件主要针对粗粒度的交通流仿真，在车辆横向动力学仿真上不够精细，Prescan、Carsim等针对动力学的仿真软件对于交通流和车辆间的交互仿真能力较弱，另有CARLA、lgsvl、Airsim等开源仿真软件借助简化的自动驾驶技术栈来进行车辆仿真，表现出的车辆驾驶意图和行为较为单一。对自动驾驶车辆进行评测。

2024-04-15 14:09:36 910 1

原创 DMS & OMS 赋能车舱，交互升级助力安全驾驶

随着汽车智能化进程，人们的关注点已渐渐的从汽车的机械素质，转化为人与车之间更安全、高效、舒适的交互方式

2024-04-09 17:51:46 2532

原创智能汽车信息安全防线保卫战

基于车辆完整生命周期来制定网络安全管理流程，定义了组织流程、职责和治理，涵盖概念、开发、验证、生产、运营、报废各个阶段，以处理车辆网络威胁的相关风险，保护车辆免受网络攻击。因此供应商也需要对零部件进行威胁分析和风险评估，识别产品的安全目标和安全需求，制定适当的安全措施，开展适当和充分的测试，以验证安全措施的有效性。针对已识别的安全威胁和风险，我们制定了信息安全解决方案，并通过专家评审，融入到产品需求、设计和实施中，进行充分的测试和验证，如安全编码规范扫描、漏洞扫描、模糊测试和渗透测试等。

2024-04-08 14:37:25 685

原创从 UniAD 到智驾 AGI，解读智驾新趋势（2023.09）

《从 UniAD 到智驾 AGI，解读智驾新趋势》，深入解读 UniAD 技术亮点，探讨智驾未来行业新趋势。以下为本次直播内容整理总结：最近商汤及联合实验室的论文《（UniAD）》（以路径规划为导向的自动驾驶）获得了2023 CVPR Best paper。商汤研究院和上海人工智能实验室 OpenDrive Lab 在过去一年的时间里贡献了许多在自动驾驶领域的工作成果，比如 BEV Former、Persformer、Occupancy Network 等工作。

2024-04-06 14:23:58 2423 1

原创 OccNet 栅格占据网络：重建智能驾驶场景表征

过去几年来，我们深入探索了 Occupancy 在智能驾驶任务中的应用潜力，基于学术数据集和业务数据集搭建了Occupancy benchmark 来系统研究 occupancy，并验证了 OccNet 网络结构框架的有效性：Occupancy 通过通用的表征形式来重建自动驾驶场景，能够实现感知和运动规划等自动驾驶下游任务。的 Occupancy 数据集。相比于 BEV 感知的方案，Occupancy 显示了更加优越的性能，但 3D 的表征形式需要更大的算力成本，同时其数据集应用依赖于标注。

2024-04-06 14:21:14 1289 1

原创数据闭环转动，决策规划算法驶入「快车道」

在利用数据时，需要有针对性地提取有价值的场景信息，如导航信息、实时定位、地图、障碍物、行人以及他车等全量信息，以提高数据的信息密度和信息质量，加快算法迭代速度。类似的右变道的场景，模型也可以处理相对复杂的车况。由于缺少足够的数据量，先使用基于规则的自动驾驶系统，产生大量的自动驾驶路测数据，启动模型的训练，快速得到初始模型，此时的模型性能和基于规则的方法相差不大。在数据闭环体系里，我们可以通过离线的数据获得自车实际的轨迹，使用模仿学习算法训练，让模型对自车实际轨迹相似的候选轨迹打高分。

2024-04-03 14:19:21 2551 1

原创 BEV 目标感知能力：效果稳定，目标丰富

随着绝影 BEV 感知算法在广汽埃安旗下「ACE」车型、纯电豪华轿跑昊铂 GT 量产上车，基于行业领先的 Transformer 算法框架，实现 BEV 目标感知、车道线感知、NN-Fusion 多传感器融合感知，以更高效的感知研发能力、精准稳定的感知效果不断降低智驾感知量产研发成本，帮助打造行业领先智驾能力。在以下案例中，昊铂 GT 在雨天的城区道路中行驶，对前方小车、非机动车、行人等目标的感知能力准确且稳定、识别丰富度高，且具有更强的鲁棒性。同理，在黑夜与极端天气下，相机的成像效果大幅降低。

2024-04-03 11:57:10 1259 1

原创面向量产的多传感器标定，统一传感器「世界观」

传感器的标定也决定了感知能力上限：传感器数据的坐标（图像、点云等）与真实世界物体的坐标存在对应的转换关系，对于坐标转换模型公式中的传感器参数调整，就是标定。，当车辆运动时，受到颠簸、加减速的影响，传感器和地面之间的相对位置关系会不断变化，影响最大的是俯仰角，因此动态标定主要针对俯仰角这一个维度，每帧提供一个标定结果。产线标定即车辆在量产过程中按序进入标定间，摆正器将车辆摆正，得到现场标靶相对于车辆的位置关系，然后传感器通过对周围标靶的识别，从而解算出传感器外参。根据判断结果，决定是否继续进行传感器标定。

2024-04-02 20:13:32 1095

原创智能汽车「狂飙」时代，拉住功能安全「准绳」

从汽车中广泛应用的 AI 技术本身出发，根据汽车 AI 安全的研发流程体系和技术要求指南，链接行业专家、机构，共同制定提高车载AI技术安全应用流程标准，以满足功能安全、预期功能安全等标准对 AI 技术的特定安全要求，推进安全可靠的软件算法技术在智能汽车行业的应用。近年智能汽车行业进入「狂飙」时代，安全标准的制定就像乘客驾程中必不可少的「刹车片」，在智能汽车安全功能演进中，让汽车功能安全在研发落地进展中不断提升，拉起智能汽车的安全防线。同时，绝影已提前布局，基于 DMS 产品进行 SOTIF 标准的预研。

2024-04-01 11:19:12 932

原创 Drive MLM：探索自动驾驶的 GPT 时刻

DriveMLM 经过了大量通用图文数据的训练，具备强大的开集识别能力和推理能力，能够更加合理、准确地决策，处理更为复杂的场景情况

2024-03-27 18:20:48 1353

原创绝影多芯体验，承载 AI 算法新变革

为满足高算力需求，车载计算平台应运而生，完成感知环节的识别融合任务以及整个决策环节。自动驾驶几乎所有的计算都集中在计算平台。

2024-03-26 17:03:56 1184 1

Evelynnzhao的博客