香港大学团队新成果，足式机器人的全方位运动新纪元—

本文链接：https://blog.csdn.net/soaring_casia/article/details/144348097

足式机器人作为机器人领域的重要分支，正逐渐走进人们的视野。它们以类似动物的身体结构和卓越的运动能力，有望在众多复杂场景中发挥关键作用，如救援、勘探和物流等领域。然而，当前足式机器人在实际应用中仍面临诸多挑战。

©️【深蓝AI】编译

传统的基于模型的技术虽在一定程度上实现了足式机器人的快速行走和跳跃，但在复杂环境中，面对动态变化的地形和障碍物，这些方法的适应性明显不足。例如，在崎岖不平的山地或狭窄拥挤的废墟环境中，机器人难以根据实时情况灵活调整行为。近年来，基于学习的方法为足式机器人的发展带来了新的曙光，尤其是利用本体感觉传感器的研究，使机器人能够更好地感知自身状态和周围环境。但仅依赖本体感觉反馈的策略在处理极端复杂地形时仍显吃力。

同时，视觉辅助的运动方法虽然显著提升了机器人的运动性能，但大多数研究集中于正向运动，且假设视觉输入不受干扰，对于全方位运动的研究相对匮乏。此外，构建高程图或体素图的视觉输入方法，在低成本机器人上实时应用时，受限于计算资源和传感器性能，容易产生噪声和漂移，难以满足复杂环境下的需求。

▲图1| 研究人员在真实世界环境中部署我们的政策，展示了所提出的框架MOVE的多样性和卓越的运动技能©️【深蓝AI】编译

研究方法

整体框架设计

MOVE框架由标准输入编码器、环境编码器、策略网络和价值网络四个核心组件构成。在实际运行中，标准输入编码器处理来自机器人的直接观测数据，如本体感觉和深度图像，将其转换为潜在向量，为策略网络提供动作决策依据。环境编码器则利用模拟环境中的特权信息，通过对比学习，辅助标准输入编码器更好地理解周围环境。策略网络根据本体感觉和标准输入编码器的输出，生成12维的动作向量，决定机器人的行为。价值网络借助特权信息，使用近端策略优化（PPO）算法优化不对称演员 - 评论家框架，评估机器人的状态价值。

▲图2 | MOVE 框架的概述©️【深蓝AI】编译

网络输入组成

1. 标准输入：包括观测历史和深度图像。观测历史堆叠了过去10步的本体感觉信息，涵盖身体角速度、重力方向向量、线速度命令、偏航率命令、关节角度、关节角速度和先前动作等。深度图像则由前置深度相机捕获，为机器人提供视觉信息。

2. 特权信息输入：由本体感觉和外部感觉两部分组成。本体感觉部分包括本体感觉和线速度，外部感觉部分采用新颖的特权视觉观察，即由前、上、下、左、右五个方向的深度图像组成的立方体贴图，以及机器人四只脚周围的稀疏深度信息，这种表示方式在计算效率和空间信息捕捉上取得了平衡。

核心网络结构PS - Net

1. 标准输入编码器：运用多层感知器（MLP）处理观测历史以获取本体感觉特征，利用卷积神经网络（CNN）从深度图像中提取视觉特征。然后，通过变压器编码器的自注意力机制融合多模态信息，并将其输入门控循环单元（GRU）以保留长期记忆，最终输出包含速度估计、隐式状态估计和视觉估计等信息的潜在向量。

2. 环境编码器：与价值网络结构相似，但不共享权重。它通过引入交叉注意力机制处理多模态输入，将本体感觉观察投影为查询输入，视觉嵌入投影为键和值输入，确保专注于视觉输入，辅助标准输入编码器提取环境特征。在训练过程中，PS - Net采用混合损失函数，结合重建损失和对比损失，使机器人能从有限观测中捕捉丰富环境特征，推断周围环境信息。

训练过程与优化

MOVE框架在Isaac Gym模拟器中进行单阶段训练，通过设计一系列涵盖多种技能学习的模拟环境，如跳跃、爬行、爬楼梯和离散地形上的全方位行走等，并引入噪声模拟真实场景，同时采用地形课程学习方法逐步增加难度，提升机器人的泛化能力。在训练PS - Net时，重建方法通过编码器 - 解码器结构确保提取的特征包含真实估计信息，对比学习方法则通过最小化潜在向量与环境编码器输出之间的负余弦相似度，避免表示坍缩，增强机器人对环境的理解和适应能力。

实验结果与分析

模拟实验验证

在模拟实验中，MOVE框架在多种技能测试中表现出色。在跳跃、爬楼梯、穿越障碍等任务中，成功率显著高于对比方法。例如，在高跳和长跳任务中，成功率分别达到99.7%和99.6%，而对比方法中最高成功率仅为96.5%和91.2%。在处理复杂地形的速度跟踪性能方面，MOVE框架在有视觉干扰和无视觉干扰的情况下均展现出更好的性能，表明其在不完整和嘈杂视觉输入下仍能实现有效的全方位速度跟踪。

▲图3 | 真实世界的定量实验结果©️【深蓝AI】编译

真实世界场景验证

1. 室内实验：在室内真实环境实验中，MOVE框架在不同地形和运动方向上的成功率同样领先。在正向运动中，能够攀爬0.6米的台阶、跨越0.9米的间隙、登上0.25米的楼梯并穿越0.2米的孔洞；在全方位运动中，也能顺利攀爬0.15米的楼梯和穿越0.25米的孔洞，且在视觉受限的情况下，能通过本体感觉反馈迅速应对干扰。

2. 室外实验：在野外的室外实验中，MOVE框架在各种复杂环境中展现出强大的适应性和鲁棒性。在树林、停车场和建筑工地等场景中，机器人能在视觉清晰时轻松跳上高台、在车辆下全方位爬行，即使视觉被草丛、树叶或反光地面遮挡，也能有效与环境互动，如遇草或树枝绊倒时抬腿、头部受撞击时低头，展示出对物理障碍的自适应反应能力。

对比实验分析

通过与多种对比方法进行对比实验，进一步验证了MOVE框架的有效性。例如，在去除对比学习（Ours w/o C.L）、去除重建（Ours w/o Recon）或去除交叉注意力机制（Ours w/o C.A）的情况下，机器人的性能均明显下降。这表明重建方法在正向运动中提供了直接的前向视觉信息，对比学习有助于机器人在其他方向运动时提取共享特征，而交叉注意力机制则有效避免了对比学习中的表示坍缩问题。

研究成果与展望

主要成果总结

MOVE框架作为一种创新的端到端学习框架，成功实现了足式机器人在有限视觉条件下的多技能全方位运动。通过独特的网络结构和训练方法，机器人能够在复杂的三维环境中灵活应对各种地形和障碍物，有效整合视觉和本体感觉信息，显著提升了运动能力和适应性。

未来研究方向

尽管取得了显著成果，但MOVE框架仍存在一定的局限性。例如，当前的外部感知仅依赖深度图像，缺乏RGB图像提供的丰富语义信息。未来研究将致力于设计新的传感器运动集成框架，从RGB图像中获取更多语义信息，进一步提升机器人对环境的理解和适应能力。此外，还将探索如何进一步优化框架性能，降低计算成本，提高机器人在更广泛场景下的应用效率，推动足式机器人技术在实际领域中的广泛应用。

MOVE框架的提出为足式机器人的发展开辟了新的道路，为未来机器人在复杂环境中的应用奠定了坚实基础，有望在不久的将来，我们将见证足式机器人在更多领域发挥巨大的作用，为人类生活和社会发展带来更多的便利和惊喜。