报告分享 | 智能导航的发展、趋势和建议——从DeepSeek谈起

视觉语言导航

已于 2025-02-17 19:42:13 修改

阅读量994

点赞数 10

分类专栏：具身智能文章标签：人工智能具身智能深度学习

于 2025-02-17 19:38:09 首次发布

本文链接：https://blog.csdn.net/weixin_37990186/article/details/145690091

版权

具身智能专栏收录该内容

35 篇文章

订阅专栏

尊敬的刘经南院士、各位同仁新年好：

按照刘老师的部署，我与大家分享一下关于时空智能、智能导航的最新思考与建议。时空智能是自然界生命体为了寻找生存资源而长期演进出来的，与时空位置相关的一种感知和认知智能。这份报告将从时空智能的本质出发，探讨了大模型、端对端自动驾驶、SLAM技术革新、具身智能等前沿方向，最终指向一个核心关切：在人工智能颠覆性变革的今天，传统导航技术如何破局？具体包括四个核心问题：（1）大模型中是否具有时空智能；（2）智能导航比自主导航有哪些技术差异；（3）如何在导航任务上运用大模型；（4）如何构建智能导航的专业大模型。

01 时空智能

02 世界知识

世界知识指的是大模型通过大数据训练后所掌握的各种信息，涵盖广泛的主题，如历史、科学、文化、地理等。这其中也包括相当程度的专业知识，尤其是对空间的基本认知。经过合适的实验以及精准的提示，现有的大模型就能够开展导航任务规划。当然，相比于在视觉感知、语言理解和时间序列处理方面所展现的惊人效果，目前大模型的空间推理能力明显不足。要想让智能体具有类人的空间推理能力，还需要在现有大模型的基础上开展技术创新。

03 端对端的驾驶

自动驾驶是智能导航的重要体现。下面主要回顾自动驾驶发展的几个代表性技术阶段，包括分模块自动驾驶阶段、分网络自动驾驶阶段、分阶段端对端阶段和生成式端对端阶段。端对端驾驶将传感器数据与非传感器数据统一接入，通过大模型直接生成最终的路径预测、驾驶决策与控制指令，并能基于大模型开展驾驶评估，已经成为当前自动驾驶主流且必然的方案。从中我们可以看到几个主要的技术趋势，即（1）语言变成了一种传感器；（2）多模态数据统一感知与统一表示；（3）隐式的地图；（4）面向任务的评价。

04 挣扎中的SLAM

在端对端技术的进逼下，SLAM何去何从成为一个非常值得关注的问题。从导航任务的角度看，传统仅提供自身位姿和简单地图信息的SLAM，已无法满足智能导航需求。SLAM作为一个感知器，要在场景感知与理解方面朝着越来越精准、精细、高效且可解释的方向发展，要更加积极主动地感知动态环境和动态目标，感知物体级和场景级的语义。SLAM和大模型现在也结合且互相促进，体现出很多新的发展趋势。SLAM作为一个感知器需要和其他规划模块组合，才能最终服务于导航，这就与端对端方案形成了明显的技术路线差异。虽然在自动驾驶领域已经普遍认为“SLAM已死”，但这两种技术真正的决战还未开始，最终的战场将在具身智能领域。

05 具身智能

具身智能是指智能体（如机器人）通过其身体与环境的交互来获取知识、学习和解决问题的智能。时空智能是具身智能的基础。大模型在具身智能导航中发挥重要作用，进而支撑了一些新型的导航技术形态如视觉导航VN、视觉语言导航VLN以及视觉语言动作VLA。VLA尤其值得关注。比如要求一个机器人“到冰箱拿瓶水给我”，不能把“走到冰箱”和“拿水”做成导航和抓取两个模块或者两套技术方案。事实上在VLA中，能“走到冰箱前”就能“拿出水” ，反之能“拿水”就能“导航到冰箱” ，用到的是同一个技术框架。这是一个非常依赖大模型的技术，将给智能导航带来很多启发。

06 回到DeepSeek

自此，我们再回到今天报告的话题“DeepSeek”。作为一个现象级的超级AI，我们要在导航问题的研究上，尤其是导航路径规划与导航动作生成方面借助这些大模型的推理能力。为此，仿照王国维的“读书三境界”，我提一个“使用DeepSeek做导航三境界”，"我看青山多妩媚，料青山看我应如是"，此第一境也；"好风凭借力，扶我上青云"，此第二境也；"问渠那得清如许，为有源头活水来"，此第三境也。这其实也是三种技术框架，供各位参考。我们认为，智能导航大模型应该具备常识和记忆，必然是多模态深度融合，具有很好的场景适应和泛化能力，能够生成长周期的任务规划并在Sim2Real方面能够落地的模型。

07 总结与建议

我们非常小心和浅显地对“什么是智能导航”这个问题谈一下自己的看法，作为今天报告的总结。自主导航强调对复杂场景感知，而智能导航要对复杂场景的多模态数据进行统一感知与理解（统一计算、统一表征、统一建模）；自主导航要求实时精准定位和适应性导航，而智能导航要在从未见过的陌生场景生成规划和推理决策，减少对人工规则和先验地图的依赖；同时智能导航一定要顾及控制问题，要所作出的规划是载体方便执行和可以执行的。未来，是否用到大模型或许将成为导航智不智能的衡量标志。智能导航尤其强调与人的交互，能在人类语言驱动的下开展行动规划并实时反馈与修正。导航智能体在生成动作决策时还要向人提供语言解释，如“避开障碍物因前方有行人”，以增加决策的解释性和安全性。

在自动驾驶已经落地成熟、机器人即将迎来爆发性增长、大模型越来越智能的今天，传统导航技术如高精度定位、组合导航、高精地图以及SLAM逐步边缘化。当然，状态估计和环境感知的需求是没有变化的，需要变化的是如何在新的范式下发展上述技术。继续奉行“精度至上”的研究思维，会让测绘学科与智能导航越来越远。导航与其他学科（技术）的边界在迅速消失。目前智能导航的主要研究群体已经不在传统测绘导航界。通导遥一体化，或者说感知规划决策控制一体化的方案才是市场需要的方案。导航研究和应用要树立新观念。同时，因为导航技术日新月异，已经处在了人工智能的最前沿，所以“课程学完即淘汰，学生毕业即失业”的风险非常大，导航人才培养模式亟需创新。

最后，我们愿意与各位同仁一起做好智能导航，请刘老师和各位同仁批评指正。