gym

最新推荐文章于 2024-08-10 17:39:43 发布

sakus

最新推荐文章于 2024-08-10 17:39:43 发布

阅读量5.9k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sakus/article/details/80418347

版权

导入gym模块

import gym

创建一个小车倒立摆模型

env = gym.make(‘CartPole-v0’)

初始化环境

env.reset()

刷新当前环境，并显示

env.render()

reset函数

重新初始化函数
在强化学习中，agent需要多次尝试，积累经验，然后从经验中学到好的动作。一次尝试我们称之为一条trajectory或一个episode。
每次尝试都需要从初始状态达到终止状态。
一次尝试结束后，需要从头开始，即重新初始化
源码：
def _reset(): seif.state = self.np_random.uniform(low = -0.05,high=0.05,size=(4,)) ##利用均匀随机分布初始化环境的状态 self.steps_beyond_done =None ## 设置当前步数为None return np.array(self.state) ## 返回环境的初始化状态

render函数

图像引擎，一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律；图像引擎用来显示环境中的物体图像。便于直观显示当前环境物体的状态。方便调试代码。

def _render(self,mode='human',close = False): if close: ... if self.viewer is None: from gym.envs.classic_control import rendering 导入rendering模块，利用rendering模块中的画图模型进行图形的绘制

step函数

该函数在仿真器中扮演物理引擎的角色。其输入是动作a，输出是：下一步状态，立即回报，是否终止，调试项。

该函数描述了智能体与环境交互的所有信息，是环境文件中最重要的函数。在该函数中，一般利用智能体的运动学模型和动力学模型计算下一步的状态和立即回报，并判断是否达到终止状态。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。