gym

导入gym模块

import gym

  1. 创建一个小车倒立摆模型

env = gym.make(‘CartPole-v0’)

  1. 初始化环境

env.reset()

  1. 刷新当前环境,并显示

env.render()

reset函数

重新初始化函数
在强化学习中,agent需要多次尝试,积累经验,然后从经验中学到好的动作。一次尝试我们称之为一条trajectory或一个episode。
每次尝试都需要从初始状态达到终止状态。
一次尝试结束后,需要从头开始,即重新初始化
源码:

def _reset():
seif.state = self.np_random.uniform(low = -0.05,high=0.05,size=(4,))
##利用均匀随机分布初始化环境的状态
self.steps_beyond_done =None
## 设置当前步数为None
return np.array(self.state)
## 返回环境的初始化状态

render函数

图像引擎,一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律;图像引擎用来显示环境中的物体图像。便于直观显示当前环境物体的状态。方便调试代码。

def _render(self,mode='human',close = False):
if close:
...
if self.viewer is None:
from gym.envs.classic_control import rendering
导入rendering模块,利用rendering模块中的画图模型进行图形的绘制

step函数

该函数在仿真器中扮演物理引擎的角色。其输入是动作a,输出是:下一步状态,立即回报,是否终止,调试项。

该函数描述了智能体与环境交互的所有信息,是环境文件中最重要的函数。在该函数中,一般利用智能体的运动学模型和动力学模型计算下一步的状态和立即回报,并判断是否达到终止状态。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值