Reinforcement Learning学习（二）

最新推荐文章于 2024-07-17 21:40:42 发布

K-ei-th

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量1k

点赞数 16

文章标签：学习 python 强化学习

本文链接：https://blog.csdn.net/Keitheasun/article/details/138253269

版权

前言

先前聊到强化学习的部分理论以及其简单的DEMO，那么我们不能只是空中楼阁，现在应该考虑如何将其投入物理环境中，以便能够sim2real。下面就来介绍一下Nivdia推出的Isaac gym–一种能够并行训练的RL环境。

Isaac Gym

之所以选择Isaac Gym的原因是因为其高效的训练速度，由于其能够仅使用GPU就能进行模拟和网络训练，通过这种并行训练的技术，能够在短时间内快速采集大量的数据，以便于后续进行训练。

我的硬件设备信息如下

CPU: i5-12400f
GPU: RTX-2080Ti

具体的安装环境教程可以参考：

https://blog.csdn.net/m0_37802038/article/details/134629194
https://zhuanlan.zhihu.com/p/685981407

在安装好了环境以后我们可以来看看一些简单的操作，具体详细的API使用可以参考

/home/cc/isaacgym/docs/index.html

我们可以在命令行窗口中输入

cd /home/cc/isaacgym/IsaacGymEnvs
python train.py task=BallBlance

运行后的结果见下图，可以看到训练初期，有很多小球都会从盘子上掉落下来

![[Peek 2024-04-27 15-49.gif]]

训练了250个回合之后，我们可以在home/cc/isaacgym/IsaacGymEnvs/isaacgymenvs/runs/BallBalance_27-15-31-40/nn中找到对应的模型权重文件，可以看到目录下有4个文件

![[1.png]]

前面几个文件代表在第几个回合结束后生成一个checkpoint，我们接下来就来测试一下训练后的效果如何，在命令行中输入

python train.py task=BallBalance checkpoint=runs/BallBalance_27-15-31-40/nn/BallBalance.pth test=True
![[Peek 2024-04-27 15-47.gif]] 在这里插入图片描述

可以看到小球不再落下，而且也不会发生‘done‘，这说明模型已经收敛了，最值得兴奋的一点是–这仅仅用了5min不到的时间！

这个小DEMO的状态空间和动作空间的具体信息如下：

# Observations:
        # 0:3 - activated DOF positions
        # 3:6 - activated DOF velocities
        # 6:9 - ball position
        # 9:12 - ball linear velocity
        # 12:15 - sensor force (same for each sensor)
        # 15:18 - sensor torque 1
        # 18:21 - sensor torque 2
        # 21:24 - sensor torque 3
        self.cfg["env"]["numObservations"] = 24

        # Actions: target velocities for the 3 actuated DOFs
        self.cfg["env"]["numActions"] = 3

其物理环境较为简单，代码如下：

def create_sim(self):
        self.dt = self.sim_params.dt
        self.sim_params.up_axis = gymapi.UP_AXIS_Z
        self.sim_params.gravity.x = 0
        self.sim_params.gravity.y = 0
        self.sim_params.gravity.z = -9.81

        self.sim = super().create_sim(self.device_id, self.graphics_device_id, self.physics_engine, self.sim_params)

        self._create_balance_bot_asset()
        self._create_ground_plane()
        self._create_envs(self.num_envs, self.cfg["env"]['envSpacing'], int(np.sqrt(self.num_envs)))

尾言

至此，我们就大致了解了Isaac Gym的简单使用，接下来我将继续总结该环境的一些使用方法，文章内引用的部分侵删。

K-ei-th

关注

16
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning学习（二）

先前聊到强化学习的部分理论以及其简单的DEMO，那么我们不能只是空中楼阁，现在应该考虑如何将其投入物理环境中，以便能够sim2real。下面就来介绍一下Nivdia推出的Isaac gym–一种能够并行训练的RL环境。
复制链接

扫一扫