强化学习之基于gym库的智能体/环境交互

最新推荐文章于 2025-01-01 12:00:00 发布

哈哈哈hhhhhh

最新推荐文章于 2025-01-01 12:00:00 发布

阅读量3.4k

点赞数 4

本文链接：https://blog.csdn.net/breeze21/article/details/116082703

版权

本文介绍了如何使用Python的gym库创建CarRacing-v0环境，包括环境初始化、观察与动作空间解析，以及智能体如何与环境交互。重点讲解了平均回合奖励的测试方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1,make()函数来得到环境对象

import gym
env = gym.make(id='CarRacing-v0')

2.查看当前gym库注册了那些环境

from gym import envs

env_specs = envs.registry.all()
env_ids = [env_spec.id for env_spec in env_specs]
env_ids

3.每个环境都定义了自己的观测空间和动作空间

env.observation_space #环境观测空间，既可以是离散，又可以是连续空间 CarRacing-v0 的观测空间是
box(2,),观测可以用两个float值表示
env.action_space #环境动作空间，既可以是离散，又可以是连续空间 CarRacing-v0 的动作空间是
Discrete(3)，表示动作取值(0,1,2)
gym.spaces.discrete类表示离散空间 gym.spaces.box类来表示连续空间
对于离散空间，gym.spaces.Discrete类实例的成员n表示有几个可能的取值；
对于连续空间，Box类实例的成员low和high表示每个浮点数的取值范围
4.使用环境对象env

env.reset()#初始化环境对象env,该调用能返回智能体的初始观测，是np.array对象

action=env.action_space.sample() #然后将动作传给env.step()
#每次调用env.step()只会让环境前进一步，step往往放在循环中

在env.reset()或env.step()后，可以用以下语句以图形化的方法显示当前环境。env.render()

使用完环境后，可以使用下列语句关闭环境：

env.close()

注意：如果绘制了实验的图形界面窗口，那么关闭该窗口的最佳方式是调用env.close()。试图直接关闭图形界面窗口可能会导致内存不能释放，甚至会导致死机
5.
测试智能体在Gym库中某个任务的性能时，学术界一般最关心100个回合的平均回合奖励