最近对增强学习领域很感兴趣,刚好OpenAI推出了测试RL算法的gym(https://gym.openai.com/),上面有很多预设的测试环境,并且提供可视化的支持,于是决定用它小试牛刀。
众所周知,在增强学习算法中有观察(observation)、回报(reward)、价值(value)、策略(policy)四个核心元素。使用python可以安装并加载OpenAI Gym提供的预设环境。这些环境在每一轮动作执行后以新的观察和即时回报作为输出,接受下一轮执行的动作作为输入(输入输出的格式见官方文档)。
以下为gym的基本使用方法。
import gym
# load Copy-v0 environment
env = gym.make('Copy-v0')
# the action space of the environment
print(env.action_space)
# the observation space of the environment
print(env.observation_space)
for i_episode in range(100):
# reset environment
observation = env.reset()
for t in range(1000):
# display training process
env.render()
# choose an action randomly
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
print('episode done in %d episodes'%i_episode)
break
之前我在金溆林老师的博客(http://www.cnblogs.com/jinxulin/)上学习了MDP、Monte Carlo等方法。手动实现算法之后,发现缺少一个好