OpenAI Gym学习

最新推荐文章于 2024-05-22 23:23:13 发布

YongqiangGao

最新推荐文章于 2024-05-22 23:23:13 发布

阅读量1w

点赞数 3

分类专栏： OpenAI-Gym linux 文章标签： OpenAI-Gym

本文链接：https://blog.csdn.net/u010510350/article/details/71597554

版权

观察（Observations）

上篇博客介绍了使用OpenAI Gym的CartPole（倒立摆）的demo，如果想要在每个步骤中做出比采取随机行动更好的行动，那么实际了解行动对环境的影响可能会很好。
环境的step 函数返回需要的信息，step 函数返回四个值observation、reward、done、info，下面是具体信息：

observation (object):一个与环境相关的对象描述你观察到的环境，如相机的像素信息，机器人的角速度和角加速度，棋盘游戏中的棋盘状态。
reward (float):先前行为获得的所有回报之和，不同环境的计算方式不
一，但目标总是增加自己的总回报。
done (boolean): 判断是否到了重新设定(reset)环境，大多数任务分为明确定义的episodes，并且完成为True表示episode已终止。
info (dict):用于调试的诊断信息，有时也用于学习，但正式的评价不允许使用该信息进行学习。
这是一个典型的agent-environment loop 的实现。每一个时间步长，Agent 都选择一个action，Environment返回一个observation和reward。

该进程通过调用reset来启动，它返回一个初始观察。所以编写上篇博客代码的更恰当的方法是遵守完成的标志：

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()

最低0.47元/天解锁文章

YongqiangGao

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
OpenAI Gym学习

观察（Observations）上篇博客介绍了使用OpenAI Gym的CartPole（倒立摆）的demo，如果想要在每个步骤中做出比采取随机行动更好的行动，那么实际了解行动对环境的影响可能会很好。环境的step 函数返回需要的信息，step 函数返回四个值observation、reward、done、info，下面是具体信息：observation (object):一个与环境相关的对象
复制链接

扫一扫