强化学习之基于gym库的智能体/环境交互

1,make()函数来得到环境对象

import gym
env = gym.make(id='CarRacing-v0')

2.查看当前gym库注册了那些环境

from gym import envs

env_specs = envs.registry.all()
env_ids = [env_spec.id for env_spec in env_specs]
env_ids

3.每个环境都定义了自己的观测空间和动作空间

  • env.observation_space #环境观测空间,既可以是离散,又可以是连续空间 CarRacing-v0 的观测空间是
    box(2,),观测可以用两个float值表示
  • env.action_space #环境动作空间,既可以是离散,又可以是连续空间 CarRacing-v0 的动作空间是
    Discrete(3),表示动作取值(0,1,2)
  • gym.spaces.discrete类表示离散空间 gym.spaces.box类来表示连续空间
  • 对于离散空间,gym.spaces.Discrete类实例的成员n表示有几个可能的取值;
    对于连续空间,Box类实例的成员low和high表示每个浮点数的取值范围
    4.使用环境对象env
env.reset()#初始化环境对象env,该调用能返回智能体的初始观测,是np.array对象
  • step()方法,环境对象的方法,接收智能体的动作为参数,
    #返回观测(observation):np.array对象,表示观测,和env.reset()返回值的意义相同、
    #奖励(reward):float类型的值、
    #本回合结束指示(done):bool类型的数值,如果游戏结束了,可以通过“env.reset()”开始下一回合、
    -#其他信息(info):dict类型的值,含有一些调试信息。不一定要使用这个参数
    从动作空间中随机选取一个动作:
action=env.action_space.sample() #然后将动作传给env.step()
#每次调用env.step()只会让环境前进一步,step往往放在循环中

在env.reset()或env.step()后,可以用以下语句以图形化的方法显示当前环境。env.render()

使用完环境后,可以使用下列语句关闭环境:

env.close()

注意:如果绘制了实验的图形界面窗口,那么关闭该窗口的最佳方式是调用env.close()。试图直接关闭图形界面窗口可能会导致内存不能释放,甚至会导致死机
5.
测试智能体在Gym库中某个任务的性能时,学术界一般最关心100个回合的平均回合奖励

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值