1,make()函数来得到环境对象
import gym
env = gym.make(id='CarRacing-v0')
2.查看当前gym库注册了那些环境
from gym import envs
env_specs = envs.registry.all()
env_ids = [env_spec.id for env_spec in env_specs]
env_ids
3.每个环境都定义了自己的观测空间和动作空间
- env.observation_space #环境观测空间,既可以是离散,又可以是连续空间 CarRacing-v0 的观测空间是
box(2,),观测可以用两个float值表示 - env.action_space #环境动作空间,既可以是离散,又可以是连续空间 CarRacing-v0 的动作空间是
Discrete(3),表示动作取值(0,1,2) - gym.spaces.discrete类表示离散空间 gym.spaces.box类来表示连续空间
- 对于离散空间,gym.spaces.Discrete类实例的成员n表示有几个可能的取值;
对于连续空间,Box类实例的成员low和high表示每个浮点数的取值范围
4.使用环境对象env
env.reset()#初始化环境对象env,该调用能返回智能体的初始观测,是np.array对象
- step()方法,环境对象的方法,接收智能体的动作为参数,
#返回观测(observation):np.array对象,表示观测,和env.reset()返回值的意义相同、
#奖励(reward):float类型的值、
#本回合结束指示(done):bool类型的数值,如果游戏结束了,可以通过“env.reset()”开始下一回合、
-#其他信息(info):dict类型的值,含有一些调试信息。不一定要使用这个参数
从动作空间中随机选取一个动作:
action=env.action_space.sample() #然后将动作传给env.step()
#每次调用env.step()只会让环境前进一步,step往往放在循环中
在env.reset()或env.step()后,可以用以下语句以图形化的方法显示当前环境。env.render()
使用完环境后,可以使用下列语句关闭环境:
env.close()
注意:如果绘制了实验的图形界面窗口,那么关闭该窗口的最佳方式是调用env.close()。试图直接关闭图形界面窗口可能会导致内存不能释放,甚至会导致死机
5.
测试智能体在Gym库中某个任务的性能时,学术界一般最关心100个回合的平均回合奖励