论文阅读:Learning quadrupedal locomotion over challenging terrain(SCIENCE ROBOTICS 2020)

简介

项目链接:https://leggedrobotics.github.io/rl-blindloco/

像LiDAR和相机等外部传感器无法感知地面的诸如摩擦和顺应性等物理特性,在雪地、覆满植被的具有挑战性的地形下,需要将机器人的本体感受作为输入,控制器快速产生针对如保持平衡,避免自我碰撞等等多个目标的全身轨迹规划。

材料与方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hqUUFGLf-1690442752847)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230727123615443.png)]

  1. 策略训练:首先利用特权信息 X t X_t Xt包括机器人的当前状态、地形信息以及机器人和地面的接触信息,通过强化学习训练teacher policy。
  2. 策略训练:训练好teacher policy之后,将其用于监督训练只有本体感觉的student policy,它基于时序卷积网络(TCN),接收 N N N个本体感受观测作为输入。student policy通过imitation的方式训练,由教师策略给出预期向量 I ‾ t \overline{I}_t It以及行动 a ‾ t \overline{a}_t at,学生策略从本体感受到预期向量的映射。
  3. 自主地形课程:通过采样的方法为不同难度的训练课程采用不同的地形。
  4. 控制架构:使用策略调制轨迹生成器(PMTG)提供运动生成的先验。神经网络通过综合残差位置来调节腿部相位和运动原语。仿真使用带有关节位置PD控制器的动力学模型,这使得促进从仿真转化到现实,可以直接在真机上部署。
总结

读的第一篇Anymal相关的论文,没太搞清楚问题的formulation呜呜,几乎get不到方法的巧妙,感觉得往前追溯。还有补充强化学习的基础。

论文先是呈现了结果再讲方法和分析,核心结果就是一个鲁棒的通用运动控制器,可以使得机械狗适应各种复杂地形,方法主要分为在仿真环境下的策略训练和自主课程学习(ACL),两者相辅相成。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

u小鬼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值