华东师范具身导航最新综述!大语言模型在机器人导航中的最新进展!

  • 作者: Haotian Pan, Shibo Huang, Jian Yang, Jinpeng Mi, Ke Li, Xiong You, Xuan Tang, Peidong Liang, Jinbo Yang, Yingjie Liu, Jianfeng Zhang, Muyu Wang, Jie Yang, Xinyu Zhang, Lijun Zhao, Mingsong Chen, Jie Zhou, Xian Wei

  • 单位:华东师范大学软件工程学院,信息工程大学地理空间信息学院,上海理工大学,福建(泉州)智能制造技术研究院,哈尔滨工业大学机器人技术与系统国家重点实验室,华东师范大学计算机科学与技术学院。

  • 原文链接:Recent Advances in Robot Navigation via Large Language Models: A Review (https://www.researchgate.net/profile/Xian-Wei-3/publication/384537380_Recent_Advances_in_Robot_Navigation_via_Large_Language_Models_A_Review/links/66fd2d9b906bca2ac3de2f73/Recent-Advances-in-Robot-Navigation-via-Large-Language-Models-A-Review.pdf)

1. 简介

机器人导航是指机器人能够在环境中自主移动和定位的能力。本文系统地回顾了基于大语言模型(LLMs)的机器人导航研究,将其分为感知、规划、控制、交互和协调等方面。具体来说,机器人导航通常被视为一个几何映射和规划问题,需要机器人对环境进行参数化处理。

从早期的基于模型的方法到最近的深度学习和强化学习方法的进步,机器人导航技术取得了显著进展。例如,Leonard等人利用扩展卡尔曼滤波器在已知环境中进行移动机器人的导航,而Hu等人则通过识别地标和动态提取的环境特征进行导航。

随着技术的进步,研究人员开始将机器学习融入导航系统中,使系统能够基于现实世界的经验做出决策,并考虑其行为的物理后果。然而,这些方法通常数据密集且缺乏可解释性,使得进一步的调试和改进变得困难。因此,许多基于机器学习的方法主要在模拟环境中进行研究,并偶尔应用于简单的现实世界环境作为“概念验证”系统。

最近,基于LLMs的机器人导航方法引起了广泛关注。LLMs如GPT-3和BERT在大量文本数据上进行预训练,能够学习丰富的语言模式,只需少量示例即可执行各种语言任务。这些模型通过强大的语言和图像处理能力,能够有效地规划新任务并做出决策,甚至无需任何样本数据。LLMs还可以用于增强人机交互,例如LIM2N框架允许语言和手绘输入作为导航约束和控制目标。

总之,LLMs在机器人导航中的应用是一个有前景的研究方向。然而,该领域仍面临许多挑战,如如何有效地将环境信息编码为文本、如何使机器人理解和处理复杂的环境信息、如何促进机器人做出合理决策、如何改善人机交互以及如何实现自主决策和推理。

为了全面了解基于LLMs的导航技术并推动该领域的进一步研究,本文总结了基于LLMs的导航技术的最新进展,并讨论了未来的研究方向。与之前的综述相比,本文的不同之处在于:

  1. 本研究重点探索基于LLMs的导航,这在推进该技术方面起着关键作用。

  2. 本文主要考察LLMs在导航各个阶段的作用:感知、规划、控制、交互和协调。

  3. 基于LLMs的导航方法根据其应用于的物理环境任务进行分类:室内、道路环境和越野环境。

图片

2. 背景

2.1 大语言模型

大语言模型(LLMs)是一类基于Transformer架构的语言模型,以其庞大的参数量(通常达到数百亿)而闻名。这些模型通过在海量互联网数据上进行训练,具备了丰富的语言能力,主要体现在文本生成方面。典型的LLMs包括GPT-3、PaLM、LLaMA和GPT-4等。LLMs的一个显著特点是它们能够在上下文中进行学习,即仅凭少量示例就能生成连贯且适当的响应。

与传统机器学习模型不同,LLMs依赖于深度双向表示、强大的上下文理解能力和高效处理复杂任务的能力。传统模型如长短期记忆网络(LSTM)通常依赖于特定的数据结构和算法来处理数据,而像GPT-4和Sora这样的LLMs则完全基于注意力机制。LLMs能够将传感器数据直接转换为可执行的交互代码,从而消除了感知信息与文本之间的差距。

2.2 机器人导航

移动机器人导航技术因其综合性和实用性而受到广泛关注。多年来,该领域的研究成果丰富,融合了从经典控制到机器学习的各种算法。它涉及一个多层次的架构,包括感知、规划和控制三个核心方面。解决这三个核心问题需要一系列关键技术,包括环境感知、自主定位和运动规划。

  • 移动机器人的环境感知技术利用机器人携带的传感器来感知周围环境,并处理获取的环境数据以获得特定信息(如特征和位置信息)。在地图未知且初始位置不确定的情况下,机器人必须首先依靠传感器感知外部环境信息,然后才能进行定位、地图构建和路径规划等任务。因此,环境感知是移动机器人自主导航的基础和关键环节。

  • 自主定位是根据任务需求,机器人利用先前的环境地图信息、当前机器人位姿估计和传感器观测作为输入数据,通过计算生成更准确的当前位姿估计的过程。

  • 路径规划涉及机器人在现实世界中,结合先前的地图信息和实时的环境感知输入,搜索连接起点和目标点的轨迹。这条轨迹在特定标准下是最优的,并确保机器人能够实时避开动态障碍物,最终顺利到达目标。

实现自主机器人导航需要解决三个核心挑战,这些挑战可以分为基于地图的导航和无地图导航。拥有环境地图有助于路径规划,但在许多场景中,环境地图最初是未知的,这促使了无地图导航和同时定位与地图构建(SLAM)的发展。此外,基于地图的导航的质量受到环境地图表示和准确性的影响。地图可以是度量型或拓扑型。在度量型地图中,检测到的障碍物、地标和机器人的位置相对于特定参考框架表示。近年来,基于传统搜索和采样方法的算法不断涌现。基于学习的规划方法也吸引了众多研究人员的关注,包括结合传统和学习范式的方法。传统搜索方法包括视觉图搜索算法和基于网格的搜索算法,而采样方法包括概率路线图和基于随机搜索树的方法。基于学习的方法包括基于强化学习的社交感知运动规划。

3. 基于大模型的机器人导航

图片

机器人导航技术的发展迅速,但仍面临许多挑战。主要技术难题在于路径规划。有效的导航需要考虑环境中的动态变化和不确定性,同时避开障碍物并到达目的地。机器人在未知地形中导航时,环境的不确定性和复杂性增加了额外的挑战。人类活动对机器人导航有显著影响,机器人必须能够与人类共存并避免冲突。此外,传感器的选择及其数据的融合也是机器人导航中的关键挑战。每种传感器都有不同的精度和可靠性,协调不同传感器的数据以提高定位和导航的准确性是研究的重点。

将大语言模型(LLMs)与机器人导航相结合是一种可行的解决方案。自2017年Transformer模型的引入以来,机器人导航与LLMs的融合不断发展。2019年BERT模型的推出推动了深度双向学习表示的发展,为后续研究奠定了基础。从2020年开始,预训练大规模语言模型并在特定任务上进行微调的方法显著提高了自然语言处理任务的性能。LLMs与机器人的有效协作涵盖了增强智能、人机交互、自主决策能力、感知和控制能力等多个方面,并扩展到支持社交互动和情感交流等领域。

3.1 机器人的环境感知和语义理解

人类主要依靠五种感官进行移动时的感知。为了使LLMs具备类似的能力,需要提供全面的多模态环境描述。为此,需要一个具有多模态感知能力的转换器,负责将环境特征描述传递给LLMs。目前主要有三种方法:

  1. 视觉与语言的关联:例如LM-Nav利用视觉语言模型(VLM)如CLIP作为LLMs的对齐模块。LLMs利用其语义理解能力解析自由文本指令,并将指令中的地标描述与机器人观察到的图像匹配。

  2. 多模态信息描述:例如Matcha利用多模态感知模块将结果转换为自然语言形式,以便更好地理解和统一处理。

  3. 图像编码为视觉token:例如Image-oriented Tokenizer使用VQ-GAN等技术将图像分解为离散的视觉单元,并将其映射到视觉字典中,使LLMs能够整合视觉和语言信息。

3.2 高级规划

图片

机器人导航规划涉及从低级控制到高级推理的多个层次。LLMs可以通过预训练数据和自监督学习技术提供导航规划。通过提示方法,LLMs可以直接生成行动序列,而无需额外的领域知识。子任务分解是将复杂任务分解为独立单元的过程,每个子任务由低级控制器执行简单动作和环境交互。

3.3 低级控制

传统机器人控制系统通常使用一系列预定义的功能、行为和算法来实现导航。通过将自然语言与程序代码之间的映射教授给LLMs,可以使LLMs控制机器人。例如,在Code-as-Policies中,编程导向的LLMs根据自然语言指令生成机器人策略代码。LLMs作为控制器具有生成高度灵活的机器人策略、无需收集训练数据或进行训练过程等优点。

3.4 人机交互

人机交互在机器人导航中至关重要。LLMs可以通过增强对象理解能力克服视觉语言模型的模糊语义理解限制。多模态传感器输入使机器人能够更全面地理解人类命令。例如,LIM2N框架结合语言和手绘路径实现更直观和用户友好的交互。

3.5 多机器人协调

多机器人协作可以缓解单机器人系统的局限性。LLMs可以将环境观察转换为语言输入,促进多智能体系统内的通信和决策。集中式系统中,LLMs理解多个智能体的观察、历史和任务进度,并协同分配任务。分散式系统中,每个机器人作为自主实体通过类似人类的语言通信交换历史观察结果并做出适应性决策。

3.6 小结

机器人导航技术的发展经历了从几何特征跟踪到动态环境中复杂路径规划的演变。LLMs在机器人导航中的应用显著提高了机器人在已知或未知环境中的自主性和效率。不同环境下的导航策略因环境感知、路径规划算法选择和定位技术的应用而有所不同:

  • 室内环境中的目标对象通常出现在特定房间和物体附近,

  • 室外环境中的导航任务需要处理复杂的城市街道网络,

  • 越野环境中的导航策略需要应对地形的变化。

图片

4. 数据集

在机器人导航领域,大语言模型在协助机器人导航方面发挥着至关重要的作用。它们能够准确理解和解析各种指令信息,为机器人提供精确的导航路径规划和决策支持,从而显著提升机器人在复杂环境中的自主导航能力。不同数据集在机器人语言视觉导航领域具有独特的角色,涵盖了语义信息、视觉特征、多模态融合以及与环境互动等方面,为机器人的学习和训练提供了丰富的资源,使其能够更好地适应各种导航场景,实现更智能高效的导航。

图片

4.1 语义信息数据集

语义信息数据集对于提高机器人的理解和任务执行能力至关重要。这些数据集提供了精确的语义知识和上下文信息,使机器人能够准确理解人类指令的意图,并据此更好地规划和执行任务。通过学习和分析这些数据集,机器人可以准确识别对象、场景和概念,并将其与相应的动作关联起来,从而提高问题解决和任务执行的效率。此外,这些数据集还能增强机器人对不同任务和环境适应能力,使其更加灵活多变。典型数据集包括:

  • R2R:包含21,567条自然语言指令,用于研究视觉和语言导航。

  • REVERIE:包含21,702条导航和指代表达信息指令,适用于真实室内环境的导航。

  • Just Ask:基于R2R数据集,引入人机交互以解决机器人的歧义问题。

4.2 视觉特征数据集

视觉特征数据集对于提升机器人的视觉感知能力极为关键。这些数据集提供了丰富的特征信息,如对象的形状、颜色和纹理等,使机器人能够准确感知和理解环境。通过学习和分析这些数据集,机器人可以优化其视觉感知模型,提高对视觉信息的处理和理解能力,从而实现更准确的导航、避障和其他操作,并更好地适应不同的光照和环境变化,增强其在复杂环境中的可靠性和稳定性。典型数据集包括:

  • Matterport3D:包含10,800张全景视图和194,400张RGB-D图像,支持多种计算机视觉任务。

  • Gibson:虚拟环境数据集,具有神经网络视图合成和物理引擎集成。

4.3 多模态融合数据集

多模态融合数据集通过结合文本、图像等多种数据形式,为机器人提供全面的环境信息输入。通过融合和分析这些数据,机器人可以更好地理解不同模态之间的关联和互补性,更准确地处理复杂情境信息,灵活应对各种挑战,并不断提升其智能水平和处理能力。典型数据集包括:

  • AI2-THOR:包含多种场景数据、智能体、支持的动作、图像模态和环境元数据。

  • RobotSlang:通过人类驾驶员和指挥者的合作实验收集,研究语言引导的机器人同时定位和映射。

4.4 环境互动数据集

环境互动数据集包含丰富的环境信息,为机器人提供了模拟真实环境的训练场景。通过学习这些数据集,机器人可以提高与环境互动的技能,增强导航的准确性和效率,并更好地理解任务需求,做出适当决策以确保任务的顺利完成。这些数据集在提升机器人的导航和交互能力方面发挥着重要作用。典型数据集包括:

  • CVDN:包含2,050个人类导航对话,研究在人类环境中通过对话进行机器人导航。

  • Gibson:虚拟环境数据集,用于训练和测试真实世界的感知智能体。

这些数据集在机器人导航中的应用不仅限于单一任务,还涵盖了语义理解、视觉感知、多模态融合和环境交互等多个方面。通过对这些数据集的分类和分析,研究人员可以更好地理解不同数据集的特点和优势,为机器人导航技术的进步提供有力支持。

5. 评估指标与分析

图片

在基于大语言模型(LLMs)的导航技术中,评估模型的性能是优化和改进的关键研究方向。本文介绍了当前主流的评估指标,这些指标可以帮助我们理解模型的准确性、适应性等方面。

  1. 成功率(Success Rate, SR)

    • 定义:任务在特定距离内完成的频率。

    • 计算公式:

  2. 路径长度(Path Length, PL)

    • 定义:导航过程中覆盖的总距离。

    • 计算公式:

    • 其中,表示第次任务的路径长度。

  3. 成功加权路径长度(Success Weighted Path Length, SPL)

    • 结合成功率和路径长度,评估任务完成的效率。

    • 计算公式:

    • 其中,表示任务的成功与否(1为成功,0为失败),表示最短路径。

  4. Oracle成功率(Oracle Success Rate, OSR)

    • 评估路径上是否有任何点接近目标位置。

    • 计算公式:

    • 其中,为指示函数,表示路径上第点到目标位置的距离。

  5. 路径长度加权远程目标定位成功率(Remote Grounding Success Rate Weighted Path Length, RGSPL)

    • 结合远程基础成功率和导航路径长度,评估模型在达到目标语义标签时的效率。

    • 计算公式:

  6. 关键点准确率(Key Point Accuracy, KPA)

    • 评估机器人在关键点的决策正确率。

  7. 目标距离(Distance to Goal, DTG)

    • 表示任务结束时机器人与目标的最近距离。

6. 挑战与不足

尽管将大语言模型应用于机器人导航展示了显著的潜力,但在确保其在实际应用中的有效性和可靠性方面仍存在许多挑战和局限性。以下是一些主要的问题:

6.1 空间推理能力的局限性

尽管LLMs在序列建模和模式识别方面表现出色,但在处理复杂的空间推理任务时仍然存在不足。例如,ChatGPT-3.5在处理3D机器人轨迹数据时可能会遇到困难,需要特定的提示机制来提高性能。

6.2 物理世界中的适应性问题

将LLMs应用于机器人导航的一个关键挑战是如何有效地将这些模型与感知和动作控制在物理世界中结合起来。虽然一些研究表明LLMs可以在少量物理环境线索的情况下生成低级控制命令,但在需要动态调整机器人行为的场景中,这仍然是一个复杂的问题。

6.3 视觉感知的兼容性问题

对于依赖于复杂环境交互的任务,如机器人视觉导航,仅依赖文本指令可能不足以涵盖所有必要的信息。尽管多模态LLMs(如GPT-4V)已经开始被用于增强任务,如机器人运动规划,但这仍然限制了LLMs在高视觉感知需求任务中的应用。

6.4 安全性考虑

机器人作为实体平台,其行为可能对环境产生持久影响,因此需要学习并安全地交互以防止潜在的灾难性事件。这要求物理导航系统具备足够的自我监控和风险评估能力。

6.5 实时性和可靠性需求

在实际应用中,机器人导航系统需要快速响应并在不确定环境中做出准确决策。这要求LLMs不仅具备高效的计算能力,还需要减少时间延迟,同时确保计划执行的正确性和可靠性。

6.6 视觉导航的多样性

视觉导航包括多种任务,如视觉语言导航、基于地面的问答、场景导航等。这种多样性要求导航系统具备足够的灵活性和适应性。

6.7 小结

当前基于大语言模型的导航研究的主要挑战在于LLMs的对齐机制。尽管在充足的训练数据下,LLMs能够在大规模环境中有效地解决导航任务,但这依赖于完美的视觉感知和卓越的机器人控制策略。目前的研究中,LLMs通常作为导航模型中的处理器或组件存在,尤其是在室外导航任务中,这限制了它们在任务完成中的效率和成功率。

另一方面,要充分利用LLMs的能力,需要大量的数据。当前的数据集通常侧重于室内环境或特定设置,这使得研究人员难以获取涵盖复杂环境的广泛数据集。加速这一领域的进展需要研究人员深入研究上述问题。

7. 总结

本文深入探讨了大语言模型在机器人导航领域的发展,详细审查了基于LLMs的导航方法,并描述了它们之间的差异和共性。此外,本文还对这些方法在不同任务和环境中的性能进行了深入分析,揭示了它们的设计原则和方法论。

实验表明,LLMs在零样本导航任务中发挥了至关重要的作用。然而,LLMs在机器人导航领域也存在固有的挑战和局限性。这些因素包括LLMs与物理世界之间缺乏直接联系、需要大量训练数据以及在不同环境中理解和生成自然语言的复杂性。

尽管存在这些障碍,仍有许多有前景的研究方向可以推动基于LLMs的导航技术的发展。这些措施包括开发更健壮和自适应的语言模型、探索创新的训练方法和架构、建立标准化基准和评估体系,以及加强人工智能、机器人技术和社会科学领域的跨学科合作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值