强化学习找金币游戏Gym环境测试调试问题

强化学习找金币游戏Gym环境测试调试问题

  下图为机器人在网格世界找金币的示意图。该网格世界一共有8个状态,其中状态6和状态8为死亡区域,状态7为金币区域。机器人的初始位置为网格世界中任意一个状态。机器人从初始状态出发寻找金币。机器人进行一次探索,进入死亡区域或找到金币,本次探测结束。
  机器人找到金币的回报为1,进入死亡区域回报为-1,机器人在区域1-5之间转换时,回报为0。
  目标是找到一个策略使得机器人不管处在什么状态(1-5)都能找到金币。
在这里插入图片描述
  在《深入浅出强化学习:原理入门》一书中给出找金币游戏的Gym开发环境代码,grid_mdp.py文件中。如下:https://github.com/gxnk/reinforcement-learning-code

为自己强化学习代码在Gym中进行环境配置

  1. 第⼀步,将我们⾃⼰的环境⽂件(grid_mdp.py) 拷⻉gym安装⽬录/gym/envs/classic_control⽂件夹中(拷⻉在此⽂件夹中是因为要使⽤rendering模块)。
  2. 第⼆步,打开该⽂件夹(第⼀步中的⽂件夹)下的_init_.py⽂件, 在⽂件末尾加⼊语句:
    from gym.envs.classic_control.grid_mdp import GridEnv
  3. 第三步,进⼊⽂件夹的gym安装⽬录/gym/gym/envs,打开该⽂件夹下 的_init_.py⽂件,添加代码如下。 第⼀个参数id就是你调⽤gym.make(‘id’)时的id,这个id可以随便选取,源代码取名GridWorld-v0。
register(
    id='GridWorld-v0',
    entry_point='gym.envs.classic_control:GridEnv',
    max_episode_steps=200,
    reward_thre
  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值