机器人基于isaacgym的强化学习框架的迁移训练

松弛的赛博鼠饼

已于 2024-12-03 19:30:11 修改

阅读量1.2k

点赞数 7

分类专栏： isaac强化学习文章标签：机器人

于 2024-08-23 18:00:46 首次发布

本文链接：https://blog.csdn.net/Don_Chao/article/details/140530289

版权

1 篇文章

订阅专栏

目前比较火爆的开源：

humanoid-gym

本节以迁移小hi硬件模型至humanoid-gym训练架构为例：

可以分为以下几步

urdf模型路径验证。urdf模型中需要有路径指示出mesh（.stl）
state调整。根据不通关节的命名进行修改
- initial state值（=DoF）
- PD control系数（=DoF）
Observation的数量
_reward_base_height上矩阵维度不对。（待解决，2024.07.18，疑似是foot indice没有读入正确）。
- feet_indice是从feet_names中读取foot在
- feet_names是从hi_cfg中定义的foot_name中识别出来的
- 因此需要找到hi_cfg中修改foot_name定义
- <问题解决>
矩阵1和矩阵2维度不通，无法进行乘积!
- 其中需要对齐的是291和219。219*768是给派定义的输入维度。
- pai的219和hi的291是由num_critic_obs，即评论家网络的观测维度决定的。
- pai网络的219可以追溯到Hi_cfg.env中的参数num_privileged_obs = int(c_frame_stack * (single_num_privileged_obs))，3*73=219。
- 下面确定hi的291输入维度。可以追溯到hi_env.compute_observations中的self.privileged_obs_buf
- hi_env中的critic_history默认按stack=3，在初始化的时候默认的第一轮history为73个0，但是self.privileged_obs_buf计算出来为109*2，cat()在一起就变成了291。
- 因此解决问题的关键在于，因此需要找到hi_cfg中修改single_num_privileged_obs，为109即可
- <问题解决>

至此调通，可以进行正常训练。

本节以迁移小pi硬件模型至legged_gym训练架构为例：

分为几步：