ICRA-2025 | 具身导航如何应对微小障碍物？Robust Robot Walker：学习在微小陷阱上的敏捷移动

最新推荐文章于 2025-04-24 15:16:35 发布

视觉语言导航

最新推荐文章于 2025-04-24 15:16:35 发布

阅读量1.2k

点赞数 11

分类专栏： VLN 文章标签：人工智能具身智能机器人深度学习

本文链接：https://blog.csdn.net/weixin_37990186/article/details/145631049

版权

93 篇文章

订阅专栏

论文提出了两阶段训练框架，该框架完全依赖于机器人的本体感觉来学习通过各种小障碍物的鲁棒行走策略,避免了对外部传感器的依赖，从而提高了在复杂环境中的适应性和可靠性。
引入了显式-隐式双状态估计范式，利用接触编码器来估计机器人不同关节链接上的接触力，并结合分类头来增强对接触表示的学习，有助于更有效地识别和应对不同的障碍物。
将任务重新定义为目标跟踪而非速度跟踪，并设计了精心设计的密集奖励函数和假目标命令，实现了近似的全向移动能力，显著提高了训练稳定性和在不同环境中的适应性。
设计了一个新的微小陷阱任务基准，并在模拟和真实世界环境中进行了广泛的实验，验证了所提出方法的有效性和鲁棒性，为未来的研究提供了有价值的参考。

论文主要解决的问题是如何使四足机器人在实际应用中具备稳健的行走能力，特别是在通过各种小障碍物（或“微型陷阱”）时。

现有的方法通常依赖于外部传感器，这些传感器在检测这些微小陷阱时可能不可靠。

该问题的研究难点包括：

论文将行走控制问题分解为离散的运动动态，并使用时间步长为0.02秒的离散时间步。他们使用近端策略优化算法（PPO）来优化策略。
为了提高训练效率和鲁棒性，论文将任务定义为目标跟踪而不是速度跟踪。
状态空间包括四种类型的观测值：
- 本体感觉 ：包含来自IMU的重力向量和基座角速度、关节位置、关节速度和上一个动作。
- 特权状态 ：包含基座线性速度（来自IMU的数据不可靠）和地面摩擦。
- 接触力 ：包括每个关节链接与环境网格的接触力。
- 目标命令 ：包含相对于当前机器人框架的目标位置和时间剩余。
动作空间：
- 动作空间是12个关节的期望关节位置。

奖励函数由三个部分组成：任务奖励、正则化奖励和风格奖励。总奖励是这三部分的和。

任务奖励：包括目标奖励、航向奖励和完成奖励：
- 目标奖励在整个回合中是密集的，鼓励机器人始终朝向目标移动。
- 航向奖励帮助机器人在接近目标时保持正确的方向。
- 完成奖励鼓励机器人在接近目标时保持静止。
正则化奖励：用于使机器人平稳、安全、自然地移动。包括速度限制奖励、停滞奖励、腿部能量奖励等。
风格奖励：使用对抗运动先验（AMP）来获得自然的步态并加快收敛速度。

训练：采用两阶段的概率退火选择（PAS）框架进行训练。
- 在第一阶段，策略可以访问所有信息作为观测值，并使用显式-隐式双状态学习。
- 在第二阶段，策略只能访问本体感觉和目标命令，逐步适应不准确的估计。
部署：
- 策略通过遥控操作实现近似的全向移动，无需运动捕捉或其他辅助定位技术。
- 通过设计良好的任务奖励函数和比例，策略可以根据目标距离学习不同的移动策略。