初识gym——why is gym?

who

gym中的环境有几种,都可以在官网找到gym官网—环境

  • Classic control and toy text(经典控制和玩具文本)
  • Atari(Atari游戏)
  • 2D and 3D robots(2D和3D机器人)

使用代码

from gym import envs
print(envs.registry.all())

输出会是一个字典,其中包含gym的全部环境

开发RL算法时,请使用下面的写法,很简单

import gym
env = gym.make('CartPole-v0')

Background: Why Gym? (2016)

基本上官网在分析,RL现在哪里好,在哪里又受到限制。

这里简单摘要

  • 好处
  1. RL的应用可以很广
  2. RL现在在一些困难的场景中已经很厉害了,例如AlphaGo
  • 受到限制
  1. 适用RL的环境缺乏多样性
  2. 适用RL的环境缺乏标准,论文难以浮现

gym的目的就是解决这些

总结

官网的东西就这么多啦,算上这篇我已经总结了三篇gym官网的文档了。

接下来的工作就是

  1. 我会想办法把mujoco搞一套
  2. gym官网github上的代码分析一波
  3. 最后拿几个小环境跑跑一些更新更强大的RL算法
  4. 【附录】我其实水过pysc2,但这次我可能会认真搞一搞

有兴趣加关注啦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值