自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3905)
  • 收藏
  • 关注

转载 端到端自动驾驶论文小班课来了!面向多任务学习、可解释端到端的全流程科研培养~

解决只了解零散知识,没有清晰的体系的问题,帮助同学系统掌握指定方向的重点理论知识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系;本课题旨在设计并实现一种多任务融合、多模态融合的自动驾驶感知算法,综合利用各类传感器的优势,实现高精度、高可靠性的端到端自动驾驶。获得对经典及前沿的典型论⽂的分析⽅法,理解重点算法与原理、清晰不同算法的优劣势,也促使⾃⼰对研究idea的思考;A:不可以,老师不会指导非课程安排的方向,但如果方向差不多是可以做迁移的,学完我们的课用自己的数据集进行训练。

2025-05-18 17:00:00 6

转载 哈工大最新多模态推理综述!Perception, Reason, Think and Plan

在探索多模态推理模型的发展和优化过程中,已经提出了大量的任务和基准来进行经验能力评估和分析,以评估模型在各个方面的性能,例如视频理解和视觉推理。具体而言,它们对视觉和语言模式的依赖限制了它们处理和推理交织的不同数据类型的能力,而它们在与动态环境的实时迭代交互中的性能仍然不发达。这些局限性强调了对一类能够进行更广泛的多模态集成和更先进的交互式推理的新模型的需求。在多模态推理的早期阶段,有限的多模态数据、新兴的神经网络架构和不太复杂的学习方法等约束导致了针对特定任务量身定制的模型的开发。

2025-05-18 13:09:52 6

转载 轻量级R1:如何在资源受限的情况下训练长链式思维模型?

特别是,利用 Stage 2 的 3k 高质量数据对 DeepSeek-R1-Distill 模型进行微调,显著提升了不同参数量(7B, 14B, 32B)的 DeepSeek-R1-Distill 模型的性能,甚至在一些基准上达到了新的最先进水平 (SOTA)。:在14B模型的数学推理任务中,应用强化学习后,Light-R1-14B-DS模型表现出色,达到了74.0和60.2的AIME24和AIME25分数,超过了许多32B模型和DeepSeek-R1-Distill-Llama-70B模型。

2025-05-18 00:03:05 34

转载 端到端决策规划工程师每天都在干啥?量产中如何融合?

开始看Case、查问题,原来是预测轨迹过激进的问题,但端到端团队短期内也修不好,又到了我大展身手的时候,是时候重新设计新的交互博弈式规划方法了,系统地建模复杂交互场景下自车与他车的行为。传统的自动驾驶算法框架是定位=>感知=>预测=>决策规划=>控制的链路,Planning会接收预测模块对社会车未来行驶轨迹的预测结果进行决策规划,但预测是在规划的上游,没有办法给出考虑到当前帧自车决策结果的预测,因此理论更优的做法是实现自车和他车的联合预测规划,也就是通过一个模型同时计算出他车和自车的轨迹。

2025-05-18 00:03:05 23

转载 谈谈端到端Diffusion扩散模型:从原理到车辆轨迹规划

通过将输入的噪声图像减去预测的噪声图,就可以得到去噪后的图像,然后将去噪后的图像作为下一个时间步的输入,继续进行去噪,直到达到预设的结束条件,生成最终的清晰图像。在物理扩散现象中,比如将一滴墨水滴入水中,墨水分子会从浓度高的区域(墨水滴所在位置)向浓度低的区域(周围的清水)扩散,随着时间推移,墨水在水中逐渐均匀分布,最终整杯水颜色变得均匀,这个过程是不可逆的,系统的熵不断增加,趋向于混乱度更高的状态。通过跳跃连接,解码器可以利用编码器中丰富的特征信息,更好地恢复图像的细节,提高分割的准确性。

2025-05-18 00:03:05 677

转载 端到端量产泛化的核心:数据闭环Autolabeling方案分享~

Camera/Lidar 联合标注、 3D OCC分割、环视Camera BEV、端到端标注... 如何向特斯拉那样,完成vector space 的自动化标注,目前各家都在搭建自己的自动化真值系统。老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-05-17 20:14:18 27

转载 黑武士001来啦!我们做了一款自动驾驶硬件

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。原价36999元,现在支付定金1000元抵扣3000,由于订单已经启动,优先锁定的安排组装发货。我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。支持二次开发+二次改装!1.5m/s(最大可到2m/s)

2025-05-17 00:02:10 11

转载 NIPS‘25即将截止,自驾今年有哪些发力的方向?

可指导自动驾驶的方向:多模态大模型、端到端、VLA、点云感知、BEV、Occupancy、多模态感知、3D点云检测、在线地图等多个方向,主要面向CCF-A会/B会/C会,一区到二区,感兴趣的同学可以添加微信wenyirumo咨询~目前量产方案大多还是基于前面的感知方案,端到端和大模型量产并不是很多,BEV、OCC、3D检测这类数据闭环、数据生成、加速、蒸馏、少样本学习还是有很大研究价值,学术界还在关注。2)自动驾驶方向的顶会有哪些?目前大模型和端到端结合是自驾的热点方向,好的效果审稿人会高看一眼。

2025-05-16 11:05:10 5

转载 自动驾驶视觉大语言模型思维链层层拆解

尽管Planning(规划)来分解子问题子任务,是CoT的终极形态,非常强大,但用LLM来分解也导致了结果的不可预测性,源自LLM本身的黑盒性。HuggingGPT 在这一阶段整合前三阶段(任务规划、模型选择和任务执行)的所有信息,包括计划的任务列表、任务的模型选择和模型的推理结果,生成简洁的总结。请注意,是使用LLM来分解子任务。c. 为了减少提示中的token使用,HuggingGPT首先根据任务类型过滤模型,并基于Hugging Face上的下载次数对选定的模型进行排名,选择前K个模型作为候选。

2025-05-16 07:32:35 48

转载 NIPS2025即将截止,自驾今年有哪些发力的方向?

可指导自动驾驶的方向:多模态大模型、端到端、VLA、点云感知、BEV、Occupancy、多模态感知、3D点云检测、在线地图等多个方向,主要面向CCF-A会/B会/C会,一区到二区,感兴趣的同学可以添加微信oooops-life咨询~目前量产方案大多还是基于前面的感知方案,端到端和大模型量产并不是很多,BEV、OCC、3D检测这类数据闭环、数据生成、加速、蒸馏、少样本学习还是有很大研究价值,学术界还在关注。2)自动驾驶方向的顶会有哪些?目前大模型和端到端结合是自驾的热点方向,好的效果审稿人会高看一眼。

2025-05-15 16:28:35 35

转载 最新综述!自动驾驶生成人工智能:前沿与机遇

构建端到端融合架构,将运动补偿后的4D雷达点云(经雷达稀疏编码器提取空间特征)与LiDAR特征通过自适应融合(Adaptive Fusion)结合,并引入动态前景增强机制,在VoD数据集上实现73.30% mAP(全区域)与88.68% mAP(行车通道),尤其对行人(69.67% AP)和骑行者(96.25% AP)检测性能显著提升,验证了运动信息对动态目标检测的有效性。训练时,偏移量损失基于真实对象中心计算,避免定位误差干扰形状优化,显著提升实例分割质量(PQTh提升7.6%)。

2025-05-15 15:24:44 128

转载 X-Driver:迈向可解释VLM自动驾驶(哈工大&百度)

在Bench2Drive数据集上,X-Driver(带CoT)的Driving Score达51.7(vs. UniAD的45.9),Success Rate提升至18.1%(Table 4)。基于LLaVA模型,整合视觉(图像)与文本(导航指令)输入,利用CoT提示分解驾驶任务为多步推理(如目标检测、交通灯状态判断),生成结构化决策流程(参见Figure 3)。:ViT编码器在远距离目标检测中比VQ-VAE保留更多细节(如交通灯状态),提升感知精度(Table 2)。

2025-05-15 07:30:38 18

转载 上海科技大学机器人中心博士招生啦~

实验室空间宽敞,环境优越,设备非常丰富,适合深入科研探索。不仅有一系列标准科研平台,还有很多“乱七八糟”(但超有趣)的设备,机器人爱好者的天堂名副其实!:师泽仁老师并不限制具体研究方向,你可以与老师讨论你感兴趣的方向,因此这个主题设得比较宽泛。目前实验室有博士招生名额,欢迎对机器人方向感兴趣的同学了解、咨询并申请加入!各种大型车和小车平台(轮式、履带式等底盘,适合户外和复杂环境测试),科研经验丰富,国际视野开阔,欢迎志同道合的你加入!,与老师交流也请使用英文,放心老师非常友好!

2025-05-15 07:30:38 13

转载 无损渲染爆减一半高斯点!SteepGS最速密度控制(CVPR ‘25)

基于这些理论成果,我们提出的SteepGS集成了最速密度控制策略,在保持紧凑点云的同时减少50%的高斯点,显著提升了实际应用中的效率和可扩展性。3DGS的核心在于交替优化框架:首先以预计算的稀疏点云作为初始化,随后通过标准梯度法优化基元参数以最小化光度误差,同时配合专门设计的自适应密度控制算法(ADC)动态调整基元数量。尽管传统的自适应密度控制(ADC)在3D高斯泼溅(3DGS)中取得了经验性成功,但其启发式且略显手工化的分割标准往往会产生冗余的点。通过选择合适的高斯基元,甚至可以进一步降低损失。

2025-05-15 07:30:38 14

转载 无论中配高配,安全都是顶配!轻舟智航端到端NOA如何实现万千场景应对自如?

轻舟智航以安全智驾为核心,深度解读智驾平权时代的用户价值主张,提出智能辅助驾驶安全性的三重本质,以突破三个指数“9”重新定义安全要求。自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。多模态感知、Occupancy、多传感器融合、transformer、点云处理、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流。轻舟智航的安全理念与安全目标。

2025-05-15 07:30:38 10

转载 DriveMLM:用多模态大语言模型进行闭环自动驾驶~

代码即将开源,很漂亮的工作,其中大模型部分用的是LLaMA-7B,有能力的实验室可以复现测试。作者采集了280h的训练样本,5万条路线,30个scenarios,不同的光照和天气条件,8个小镇地图(Town01, Town02, Town03, Town04, Town06, Town07, Town10HD, Town12),每个场景在每张地图中有200个随机触发点。零样本案例1,下图在nuScens上测试,人类要求保持车道,LLM输出保持停车,LLM给出的解释是“交通灯是红色,我们该停车”。

2025-05-15 07:30:38 13

转载 无损渲染爆减一半高斯点!SteepGS最速密度控制(CVPR ‘25)

基于这些理论成果,我们提出的SteepGS集成了最速密度控制策略,在保持紧凑点云的同时减少50%的高斯点,显著提升了实际应用中的效率和可扩展性。3DGS的核心在于交替优化框架:首先以预计算的稀疏点云作为初始化,随后通过标准梯度法优化基元参数以最小化光度误差,同时配合专门设计的自适应密度控制算法(ADC)动态调整基元数量。尽管传统的自适应密度控制(ADC)在3D高斯泼溅(3DGS)中取得了经验性成功,但其启发式且略显手工化的分割标准往往会产生冗余的点。通过选择合适的高斯基元,甚至可以进一步降低损失。

2025-05-15 07:30:38 10

转载 无损渲染爆减一半高斯点!SteepGS最速密度控制(CVPR ‘25)

基于这些理论成果,我们提出的SteepGS集成了最速密度控制策略,在保持紧凑点云的同时减少50%的高斯点,显著提升了实际应用中的效率和可扩展性。3DGS的核心在于交替优化框架:首先以预计算的稀疏点云作为初始化,随后通过标准梯度法优化基元参数以最小化光度误差,同时配合专门设计的自适应密度控制算法(ADC)动态调整基元数量。尽管传统的自适应密度控制(ADC)在3D高斯泼溅(3DGS)中取得了经验性成功,但其启发式且略显手工化的分割标准往往会产生冗余的点。通过选择合适的高斯基元,甚至可以进一步降低损失。

2025-05-15 07:30:38 12

转载 自动驾驶之心合伙人招募来啦!

如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;

2025-05-14 21:00:00 22

转载 自动驾驶黄埔军校,一个死磕技术的地方~

星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。

2025-05-14 18:22:26 50

转载 ICCV 2025万篇投稿破纪录,作者被逼全员审稿!网友痛批不如GPT

然而,我并没有找到这些术语的明确定义,这导致「提高理解力」这一目标的定义实际上取决于用于衡量它的方法,即第4.2节中使用的基准测试。因此,我只能认为该论文在特定的一组基准测试所定义的任务上表现良好,而这种良好表现也是通过同样的基准测试来衡量的。我希望看到这些术语的明确定义、用于衡量它们的指标,以及优化这些指标的原理,特别是该论文提出的方法是如何实现这些优化的。她表示,我理解审稿人紧缺的现状,但强制规定「作者必须参与审稿」,且任何一人超期未完成,就会导致其所有论文被直接拒稿,这种规定实在荒谬了。

2025-05-14 07:32:14 56

原创 迈向以人为中心的自动驾驶:LLM与RL结合的快慢架构(同济大学)

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『大语言模型』技术交流群论文作者 | Chengkai Xu等编辑 | 自动驾驶之心自动驾驶通过数据驱动技术取得了显著进展,在标准化任务中实现了稳健的性能。然而,现有方法经常忽视用户特定的偏好,与用户互动和适应的空间有限。为解决这些挑战,我们提出了一种“快慢”决策框架,该框架结合了用于高层指令解析的大型语言模型(LLM)和用于低层实时决策的强化学习(RL)代理。在这一双系统中,LLM作为“慢”模块运行

2025-05-14 07:32:14 743

转载 最新综述!具身领域中基于物理模拟器的机器人导航与操作

点击下方卡片,关注“具身智能之心”公众号作者丨KAIXIN BAI等编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文>>点击进入→具身智能之心技术交流群更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。导航和操作是具身人工智能(Embodied AI, EAI)中的核心能力,但在现实世界中训练具备这些能力的智能体面临着高昂的成本和时间复杂性。因此,仿真到现实的迁移(sim-to-real transfer)成为了一种关键方法,然而仿真与现实之间的差距依

2025-05-14 07:32:14 34

转载 多模态与生成正迈向终极大一统!阿里最新综述~

来源 | AI生成未来点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多模态大模型』技术交流群本文只做学术分享,如有侵权,联系删文文章链接:https://arxiv.org/pdf/2505.02567 开源链接:https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models 亮点直击阐述多模态理解与文生图模型的基础概念与最新进展;继而梳理现有统一模型,将其归纳为三大架构范式:基于扩散的

2025-05-14 07:32:14 24

转载 自动驾驶转具身智能的切入点有哪些?

我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内容。从算法维度上看,具身智能领域基本延续了机器人和自驾的一些算法,比如SLAM、规划控制、模型训练与微调方式、数据生成方式、大模型。当然也有很多具体的任务不太一样,比如数据采集方式、重执行硬件与结构。

2025-05-13 23:13:06 57

转载 自动驾驶二阶段端到端小班课!直接搞定联合预测~

传统的预测方式仅基于交通场景的历史信息来预测未来的可能性,这种预测方式是与下游的规划解耦的,然而在实际中预测和规划是耦合的,预测会受到规划的影响,规划也会受到预测的影响。现任业内某大厂高级预测决策算法工程师,负责预测决策框架的设计和优化,精通数字驱动的预测决策领域的各种处理方法和技巧,欢迎大家一起交流学习。更重要的是,本课程重点的两个工程项目,可以直接写入简历!学完本章,大家将对轨迹预测领域有更深层次的认知,并掌握或许是目前全业界唯一一个能用的联合预测方案的核心技法,真正做到遥遥领先!

2025-05-13 11:30:00 51

转载 从3.0到4.0,华为ADS正式发布高速L3!

这使得其内部结构更加紧凑、稳定,减少了因机械运动部件磨损、故障而导致的系统失效风险,提高了可靠性和耐用性,降低了维护成本。架构,减少了对高精地图的依赖,硬件上有所调整,降本的同时提升了整体功能的性能和体验。,便于集成安装在车辆、机器人等各种平台上,不会对载体的空间和性能产生过大影响,为设备的小型化和轻量化设计提供了可能。数字底盘引擎升级,首创全域融合架构,实现车身、电机、悬架、转向、制动等部件的中央集中控制,控制处理能力提升。体积小、重量轻由于无需庞大的机械结构,固态激光雷达可以设计得更加小巧轻便。

2025-05-13 07:30:50 100

转载 ICLR‘25Oral | One Step Diffusion Via ShortCut Models论文解读

其实这部分也很好理解,因为这个端到端模型实际上就是需要先训练一个flow-matching较好的模型,然后第二项只是在flow-matching的基础上进行优化,如果flow-matching训练得不好,后一项自然训练不好,因为s_target是需要从flow-matching模型中采样的,后一项只能在d=0训练的基础模型上去拟合这个模型,本质上shortcut还是一个教师-学生的思路,但是不同于之前教师和学生都是模型,shortcut将教师-学生拆分为两个损失函数去训练同一个模型,从而实现了端到端。

2025-05-13 07:30:50 57

转载 RL训练总崩溃?R1-Reward稳定解锁奖励模型长CoT推理能力

基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。

2025-05-13 07:30:50 50

转载 大模型时代,如何通过大模型解决自动驾驶问题?

在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。作为多模态大模型下游应用的基石,可以说没有通用多模态大模型的蓬勃发展,就不会有当下大模型应用百花齐放的局面。这一章老师将会带领同学们真正进入多模态大模型的世界。这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。

2025-05-13 07:30:50 56

转载 ICLR‘25Oral | One Step Diffusion Via ShortCut Models论文解读

其实这部分也很好理解,因为这个端到端模型实际上就是需要先训练一个flow-matching较好的模型,然后第二项只是在flow-matching的基础上进行优化,如果flow-matching训练得不好,后一项自然训练不好,因为s_target是需要从flow-matching模型中采样的,后一项只能在d=0训练的基础模型上去拟合这个模型,本质上shortcut还是一个教师-学生的思路,但是不同于之前教师和学生都是模型,shortcut将教师-学生拆分为两个损失函数去训练同一个模型,从而实现了端到端。

2025-05-13 07:30:50 11

转载 ICLR‘25Oral | One Step Diffusion Via ShortCut Models论文解读

其实这部分也很好理解,因为这个端到端模型实际上就是需要先训练一个flow-matching较好的模型,然后第二项只是在flow-matching的基础上进行优化,如果flow-matching训练得不好,后一项自然训练不好,因为s_target是需要从flow-matching模型中采样的,后一项只能在d=0训练的基础模型上去拟合这个模型,本质上shortcut还是一个教师-学生的思路,但是不同于之前教师和学生都是模型,shortcut将教师-学生拆分为两个损失函数去训练同一个模型,从而实现了端到端。

2025-05-13 07:30:50 2

转载 聊聊端到端自动驾驶下的规划控制融合趋势~

传统的自动驾驶算法框架是定位=>感知=>预测=>决策规划=>控制的链路,Planning会接收预测模块对社会车未来行驶轨迹的预测结果进行决策规划,但预测是在规划的上游,没有办法给出考虑到当前帧自车决策结果的预测,因此理论更优的做法是实现自车和他车的联合预测规划,也就是通过一个模型同时计算出他车和自车的轨迹。每类算法的优缺点是什么?网上已有大量的开源项目和理论基础资料,宁远老师会选择合适的资料辅助讲解,为学员提供决策规划框架优化的细节,目标只有一个:让学员具备解决复杂问题的思路,掌握实际量产工作的能力!

2025-05-12 17:30:00 95

转载 康奈尔大学!自动驾驶和具身智能最新VLA综述~

通过这种方式,VLA模型能够从配对的视觉、语言和轨迹数据中学习,从而显著提高机器人在未见过的对象上的泛化能力、对新语言指令的理解能力,以及在非结构化环境中的多步推理能力。在实际应用中(如自动驾驶或医疗机器人),错误的动作可能导致严重后果,因此必须开发新的建模和评估标准来验证VLA系统的端到端安全性。在Vision-Language-Action(VLA)模型发展之前,机器人技术和人工智能的进步主要发生在独立的领域:能够看见和识别图像的视觉系统,能够理解和生成文本的语言系统,以及能够控制运动的动作系统。

2025-05-12 11:30:00 95

原创 Agent智驾新范式?DriveAgent:基于LLM的自动驾驶多模态融合决策框架~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多模态大模型』技术交流群论文作者 | Xinmeng Hou等编辑 | 自动驾驶之心论文题目: DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving论文链接:https://www.arxiv.org/pdf/2505.02123传统的自动驾驶

2025-05-12 07:30:31 740

转载 聊聊那些倒在自动驾驶黎明前夜的企业

作者 | 陈云培 来源 | 陈云培点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『自动驾驶』技术交流群本文只做学术分享,如有侵权,联系删文随着自动驾驶越来越具像化,政府监管机构也出台多项政策,以完善道路测试许可、技术评估和安全事故处理流程,为产业发展提供了明确的制度保障。但在自动驾驶即将规范化发展的当下,也有很多企业却黯然倒下,不仅让人唏嘘不已。其中威马汽车、纵目科技和极越汽车作为智驾领域曾经的明星品牌,却因各种原由,倒在了自动驾驶黎明前的黑暗。

2025-05-12 07:30:31 108

转载 一张照片一句简单提示词,就被ChatGPT人肉开盒?

近日,来自威斯康星大学麦迪逊分校教授肖超玮(Chaowei Xiao)主导并联合佐治亚大学教授向臻(Zhen Xiang), 南加州大学教授赵越(Yue Zhao)团队完成的一项新研究,揭示了自主多模态大语言推理模型严重的隐私泄露风险 —— 图片地理位置定位。提取门牌号数字、木质材质、拱窗形状。即使遮盖 NASA 标识,AI 仍通过铁轨布局、湖景视角和周边建筑的红砖外墙,将位置缩小到 3 个候选街道(图 13)。这些看似简单的提示词,配合一张生活照,即可触发 AI 的多模态推理链条,精准定位用户隐私地址。

2025-05-12 07:30:31 109

转载 自动驾驶从业必看:避免被行业无情淘汰!

星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;在过去的十年间,自动驾驶技术以惊人的速度重塑了未来出行的图景。

2025-05-11 21:33:31 184 1

转载 自动驾驶转具身智能的方向有哪些?

我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内容。会不会有比较大的gap。从算法维度上看,具身智能领域基本延续了机器人和自驾的一些算法,比如训练与微调方式、大模型。当然也有很多具体的任务不太一样,比如数据采集方式、重执行硬件与结构。

2025-05-11 14:37:44 114

转载 百度最新X-Driver:基于视觉语言模型的可解释自动驾驶

本文引入了X-Driver,这是一种为闭环自动驾驶设计的统一多模态大型语言模型(MLLMs)框架,它利用思维链(CoT)和自回归建模来增强感知和决策能力。本文实验结果证明了X-Driver具有卓越的闭环性能,它超越了当前最先进(SOTA)的技术,同时提高了驾驶决策的可解释性。这些结果突出了结构化推理在端到端自动驾驶中的重要性,并且将X-Driver确立为闭环自动驾驶中未来研究的一种强大基线。总体而言,本文提出了一种统一的端到端自动驾驶框架,它利用了MLLM来实现决策,同时集成CoT推理以提高可解释性。

2025-05-11 00:01:13 300

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除