具身智能论文（三）

晓shuo

已于 2024-05-13 10:11:44 修改

阅读量1.3k

点赞数 12

分类专栏：具身智能文章标签：人工智能具身智能机器人论文阅读

于 2024-05-13 09:20:59 首次发布

本文链接：https://blog.csdn.net/python_plus/article/details/138771203

版权

具身智能专栏收录该内容

9 篇文章

订阅专栏

1. Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents
2. ENTL: Embodied Navigation Trajectory Learner
3. Exploiting Proximity-Aware Tasks for Embodied Social Navigation
4. LLm-planner: Few-shot grounded planning for embodied agents with large language models
5. March in chat: Interactive prompting for remote embodied referring expression
6. Scene graph contrastive learning for embodied navigation
7. Total-recon: Deformable scene reconstruction for embodied view synthesis
参考文献

1. Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents

在这里插入图片描述
这篇论文针对具身智能体在执行指令时常因缺乏上下文记忆而错误交互对象或导航失败的问题，提出了一种新的方法CAPEAM（Context-Aware Planning and Environment-Aware Memory），该方法结合了上下文感知规划（CAP）和环境感知记忆（EAM）。

具体来说，CAP组件通过分析任务指令中的上下文信息，预测与任务相关的关键对象，并根据这些信息生成动作序列。这一过程不仅包括将任务分解为子目标，还包括为每个子目标生成详细的可执行动作。EAM组件则在智能体的记忆中存储与交互对象的状态和视觉外观相关的信息，包括对象的最新位置和外观变化。这使得智能体即使在视觉识别受阻的情况下，也能准确地与对象进行交互。

在实验部分，研究者利用具挑战性的交互式指令跟随基准（例如ALFRED基准）进行评估，验证了CAPEAM方法在已见环境和未见环境中的有效性。实验结果表明，相较于其他现有技术，CAPEAM在多个评估指标上均达到了最新技术水平，尤其是在未知环境中，成功率大幅提高，最高达到10.70%的增幅。

总的来说，这项研究通过整合上下文感知的规划与环境感知的记忆，显著提升了智能体按指令执行任务的准确性和效率。该研究不仅为具身AI领域提供了一种新的任务执行方法，也展示了智能体在复杂环境中应对未知挑战的潜力，特别是在提高任务执行的适应性和智能性方面展现了显著的优势。

2. ENTL: Embodied Navigation Trajectory Learner

在这里插入图片描述
这篇论文介绍了ENTL方法，它是为具身导航任务提取长序列表示的一种新技术。ENTL将世界建模、定位和模仿学习整合到一个单一的序列预测任务中，通过向量量化预测未来状态来训练模型，这种状态是基于当前状态和行动的。

ENTL的核心创新在于其通用架构允许在多个具身任务中共享时空序列编码器，且该方法无需显式奖励信号的预训练，使得模型可以广泛地适用于多种任务和环境。研究中特别强调了模型如何通过处理长达50步的序列，并通过空间和时间交替层的注意力机制来合成环境的新视图，并且获得更丰富的环境表达。

实验部分，ENTL在PointNav和ObjectNav等导航任务上表现出优异的性能。与需要大量数据训练的强化学习和模仿学习基线相比，ENTL展示了极具竞争力的表现。在本地化任务中，模型仅使用RGB帧，平均误差达到0.43米，表现出其精准的导航能力。此外，模型在训练分布外的场景中也能生成高质量、真实感强的未来帧预测。

总结而言，ENTL通过自我监督的离线数据训练策略，有效地解决了具身AI中的多个导航和视觉任务，显著提升了样本效率，并生成了实用的辅助输出，如未来帧的可视化和智能体定位，展示了其在复杂环境中应对未知挑战的能力。该研究不仅推动了具身AI领域的发展，也为未来具身任务的模型设计和实现提供了有力的技术支持和新的方法论。

3. Exploiting Proximity-Aware Tasks for Embodied Social Navigation

在这里插入图片描述

这篇论文针对具身智能体在动态和拥挤的室内环境中安全导航的挑战，尤其是在必须避开移动中的人类以防止碰撞的情景，提出了一种新的导航架构。这一架构通过两个核心的接近感知任务（Proximity-Aware Tasks），即风险感知（Risk Awareness）和接近指南针（Proximity Compass），来增强智能体的社交行为感知能力。

研究中引入的“风险感知”任务使智能体能够预测其行动带来的即时和未来的碰撞风险，而“接近指南针”则提供了关于环境中人类位置的动态信息，帮助智能体调整其路径以避免潜在的冲突。这两个任务通过强化学习框架融入导航策略中，使智能体在进行点对点导航的同时，能更自然地与人类共享空间。

此外，为了精确评估智能体的社交导航表现，研究团队设计了一种新的评估协议。这种协议通过分析智能体与人类的“遭遇”——即在导航过程中与人类的空间交互——来细致地测量智能体的表现。通过在Gibson4+和Habitat-Matterport3D数据集上的实验，智能体表现出在避免与人碰撞和有效达到目的地方面的显著能力。

实验结果证明，结合了接近感知任务的智能体在复杂的社交导航任务中，不仅成功率高，而且在遭遇不同社交情境时表现出更加谨慎和合理的反应。特别是在避免与人发生碰撞的能力上，相较于传统的导航模型有了显著提升。

总体而言，这篇论文通过在具身智能体的导航策略中融入对人类社交行为的感知，显著提升了智能体在拥挤环境中的社交适应性和安全性。这不仅推动了具身AI在社交导航领域的技术进展，也为未来智能体与人类更安全、更自然地共存的实际应用场景奠定了坚实的基础。

4. LLm-planner: Few-shot grounded planning for embodied agents with large language models

在这里插入图片描述

这篇论文聚焦于利用大型语言模型（LLMs）提高具身智能体在执行复杂视觉任务中的规划能力，特别是在只有少数示例（few-shot）的学习环境中的表现。

研究提出了一种创新的方法，名为LLM-Planner，它通过动态规划和环境感知来优化任务执行过程。LLM-Planner首先生成一个高层次的计划（HLP），然后根据智能体在环境中的实时观察进行调整和重规划，使计划更贴合当前的环境状况。这种方法的核心优势在于能够动态地适应环境变化，减少对大量训练数据的依赖，同时提高智能体对新任务的学习效率和执行能力。

在实验方面，研究团队在ALFRED数据集上对LLM-Planner进行了测试，这是一个要求智能体根据视觉输入完成家庭内任务的挑战性数据集。实验结果表明，即使在使用不到0.5%的配对训练数据的情况下，LLM-Planner与使用全部训练数据的现有基线模型表现相当。这一成绩特别凸显了LLM-Planner在少数示例设置下的优势，现有的方法在此设置下几乎无法完成任何任务。

此外，LLM-Planner还展示了其在多样化任务和部分可观察环境中的广泛适用性。通过动态重规划，智能体能够有效适应环境变化，克服执行过程中可能遇到的障碍，如寻找特定对象或处理复杂的交互。这不仅提高了任务成功率，还增强了智能体的环境适应能力和操作灵活性。

总结来说，LLM-Planner为具身智能体规划提供了一种高效的少数示例学习策略，显著提升了智能体在复杂环境中的表现和样本效率。这项研究不仅推进了具身AI领域的技术发展，也为智能体在更广泛的实际应用中的部署和优化打开了新的可能性。

5. March in chat: Interactive prompting for remote embodied referring expression

在这里插入图片描述

这篇论文核心问题是如何改进智能体在复杂环境中根据简洁指令进行有效导航并准确定位目标物体，这在现实世界应用如家庭机器人中极为关键。

MiC模型利用大型语言模型（LLM）的强大语义理解能力，通过即时对话形式动态生成导航计划。该模型包括两个主要的规划模块：目标导向静态规划（Goal-Oriented Static Planning, GOSP）和场景导向动态规划（Scene-Oriented Dynamic Planning, SODP），以及一个场景和物体感知模块（Room-and-Object Aware Scene Perceiver, ROASP）。GOSP模块首先基于LLM内部化的世界知识来识别目标物体及其可能的位置，而SODP模块则根据当前环境动态调整导航步骤，确保智能体能够有效适应环境变化。

此外，MiC还引入了ROASP模块，这是一个视觉感知模块，能够实时感知周围环境并提供必要的环境反馈给LLM，以促进更精确的动态规划。这种环境感知能力是通过对视觉输入的深入分析实现的，它帮助智能体理解当前所处的房间类型和可见的物体。

在实验方面，MiC在REVERIE任务的基准测试中表现出色，特别是在导航精度（SPL）和对象定位（RGSPL）的主要评估指标上，均显著优于之前的最佳方法。这些成果展示了MiC在处理远程指称表达任务中的先进性和实用性，证明了其在未见环境中的鲁棒性和高效性。

总结来说，这篇论文通过结合高级语言模型和环境感知技术，显著提升了智能体在复杂环境中根据高层次指令进行有效导航和准确定位的能力。MiC模型的成功应用为具身AI领域带来了新的研究方向，并为未来智能家居和服务机器人等实际应用提供了重要的技术支持。

6. Scene graph contrastive learning for embodied navigation

在这里插入图片描述
这篇论文提出了场景图对比学习（Scene Graph Contrastive, SGC）方法，这是一种创新的训练技术，旨在通过构建和利用场景图来增强具身智能体在导航任务中的环境理解能力。

SGC方法的核心思想是使用场景图作为训练期间的监督信号，而无需在推断时使用这些复杂的图表表示。该方法避免了构建复杂的图解码器，而是通过对比学习直接优化智能体的信念状态，使其与其观察到的场景的图形编码更加一致。在实际应用中，SGC通过迭代构建场景图，并生成与智能体交互的具体环境匹配的图。这不仅包括智能体与对象之间的关系，如“看见”或“触摸”，还包括对象之间的空间关系，如“包含”或“上方”。

研究团队在三个复杂的基于导航的任务上进行了SGC方法的实验验证，包括对象导航（ObjectNav）、多对象导航（MultiON）和臂点导航（ArmPointNav）。在这些任务中，SGC方法均表现出较传统纯强化学习方法显著的性能提升。例如，在ObjectNav任务中，SGC方法相比于传统方法在成功率上平均提高了10%。这一显著的改进表明，SGC能有效地引导智能体学习到更加丰富和有效的环境表示。

此外，论文还通过一系列的实验展示了SGC训练出的智能体在理解环境的语义信息上具有优势。例如，通过线性探针测试，研究人员发现，使用SGC训练的智能体在识别自由空间和对象语义方面表现更好，说明了SGC方法在培养智能体对环境的语义和几何理解方面的有效性。

总体而言，SGC方法为具身智能体的训练提供了一种有效的监督信号，使智能体能在没有复杂图解码器的情况下，通过简单的对比学习过程，学习到关于环境的丰富和有用的信息。这种方法的成功实施，显著提升了智能体在多种导航任务中的表现，并为未来具身AI领域的研究和实际应用提供了新的思路和工具。

7. Total-recon: Deformable scene reconstruction for embodied view synthesis

在这里插入图片描述

这篇论文主要研究从单目RGBD视频中重建动态可变形场景，并从新的视角进行视图合成的问题。

Total-Recon系统是基于神经辐射场（NeRF）的技术，通过对场景中的每个对象进行模型化，将整个场景的动作分解为每个对象的动作，进一步细分为全局根本体动作和局部关节动作。这种方法的核心优势在于能够对动态和复杂的场景进行有效建模，尤其是在处理具有大量运动和复杂关节动作的场景时。

为了验证Total-Recon的有效性，研究团队进行了一系列实验，将Total-Recon与其他单目可变形NeRF方法进行比较。实验结果显示，Total-Recon在重建质量和视图合成的准确性上显著优于现有方法。特别是在处理人与宠物互动等动态场景时，Total-Recon不仅能够捕捉到复杂的动作细节，还能从多个自由视角合成高质量的视图。

此外，Total-Recon的一个显著特点是能够从长时间的视频中学习和重建，这得益于其对场景运动的层次化分解方法。这使得系统能够在视频中捕捉到的多个视点中重建出一致的场景模型，从而支持从任何新的视角合成逼真的视图。

总结来说，Total-Recon通过精确的动态场景重建和灵活的视角合成，展示了其在动态场景分析和应用中的强大潜力。该研究不仅推动了单目视频三维重建技术的发展，也为未来虚拟现实和增强现实中的动态场景渲染提供了有力的技术支持。

参考文献

[1] Kim B, Kim J, Kim Y, et al. Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 10936-10946.

[2] Kotar K, Walsman A, Mottaghi R. Entl: Embodied navigation trajectory learner[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 10863-10872.

[3] Cancelli E, Campari T, Serafini L, et al. Exploiting Proximity-Aware Tasks for Embodied Social Navigation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 10957-10967.

[4] Song C H, Wu J, Washington C, et al. Llm-planner: Few-shot grounded planning for embodied agents with large language models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 2998-3009.

[5] Qiao Y, Qi Y, Yu Z, et al. March in chat: Interactive prompting for remote embodied referring expression[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 15758-15767.

[6] Singh K P, Salvador J, Weihs L, et al. Scene graph contrastive learning for embodied navigation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 10884-10894.

[7] Song C, Yang G, Deng K, et al. Total-recon: Deformable scene reconstruction for embodied view synthesis[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 17671-17682.