强化学习中使用OPENAI的GYM建立自己环境

最新推荐文章于 2024-08-25 14:28:48 发布

zachary2wave

最新推荐文章于 2024-08-25 14:28:48 发布

阅读量8.3k

点赞数 12

分类专栏： GYM 文章标签：强化学习 OPENAI GYM 环境

本文链接：https://blog.csdn.net/kysguqfxfr/article/details/88651147

版权

GYM 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

强化学习中使用OPENAI的GYM建立自己的环境

综述
RL and GYM
GYM registry
GYM 环境构建

综述

Reinforcement Learning 已经经过了几十年的发展，发展壮大。近些年来，跟随着机器学习的浪潮开始发展壮大。多次战胜围棋冠军柯洁，以及在DOTA2、星际争霸等游戏中超凡表现，成为了众人追捧的明星。目前OPENAI作为世界NO.1的AI研究机构，构建的GYM，成为衡量强化学习算法的标准工具。通过OPENAI 的GYM直接构建自己的环境，从而利用目前现有的算法，直接求解模型。

包含大量自我理解，肯定存在不正确的地方，希望大家指正

RL and GYM

RL 考虑的是agent如何在一个环境中采取行动，以最大化一些累积奖励。
其中主要包含的是2个交互：

agent对env作出动作改变env
env 给出奖励和新的状态给agent
其中GYM就是OPENAI所搭建的env。

具体的安装和介绍主页很详细。
GYM主页以及 DOC
GYM
GYM——DOC

安装好GYM之后，可以在annaconda 的 env 下的环境名称文件夹下 python sitpackage 下。

在调用GYM的环境的时候可以利用：

	'import gym'
	'env = gym.make('CartPole-v1')'

GYM的文件夹下主要包含：

envs 所有环境都保存在这个文件下
spaces 环境所定义的状态、动作空间
utils 环境中使用的一组常用实用程序
warppers 包装
init 读取时初始化
core 核心环境，直接链接到给定的环境
GYM 创建的环境主要在envs中，在这个里面可以找到常用的几个环境，比如说cart-pole, MountainCar等等。
自我构建的GYM环境都应该在放在envs下子文件夹中的一个py文件中的类。
例如：
gym\envs\classic_control\cartpole.py

GYM registry

所有构建的环境都需要调用GYM库，然后再通过GYM库来调用所写的环境。所以需要现在GYM的内部构件一个内链接，指向自己构建的环境。
registry 主要在

envs下 _init_ 文件下
```
 `register(`
 	`id='CartPole-v1',`
 	`entry_point='gym.envs.classic_control:CartPoleEnv',`
 	`max_episode_steps=500,`
 	`reward_threshold=475.0,`
 `)`
```
id 调用所构建的环境的名称调用该环境的时候所起的名字
注：名字包含一些特殊符号的时候，会报错
entry_point 所在的位置
例如上述：存在gym 文件夹下 classic_control文件夹下
算法所需的参数
2 在所在文件夹下
建立 _init_ 文件，在下面调用
```
 from gym.envs.classic_control.cartpole import CartPoleEnv
```
其中是cartpole是环境所存在的文件名字，CartPoleEnv是该文件下的类。

GYM 环境构建

自我构建的环境为一个类。主要包含：变量、函数

必须的变量

这个类包含如下两个变量值：state 和 action
对应的两个空间为observation _space 和 action _space
这两个空间必须要用 space 文件夹下的类在__init__中进行定义。
其中 state是一个 object 一般为一个np.array 包含多个状态指示值。

必须存在的函数

step 利用动作环境给出的一下步动作和环境给出的奖励（核心）

这个函数承担了最重要的功能，是所构建环境所实现功能的位置
输入为动作输出为
1. 下一个状态值 object
2. 反馈 float 值
3. done（终结标志）布尔值 0 或者1
4. info（对调试有用的任何信息） any
reset 重置环境
将状态设置为初始状态，返回：状态值
render 在图形界面上作出反应
可以没有，但是必须存在
close 关闭图形界面
seed 随机种子
可以没有，但是必须存在

状态、动作空间的构建

主要分为离散空间和连续空间：
连续空间主要由spaces.Box定义，例如：

self.action_space = spaces.Box(low=-10, high=10, shape=(1,2))

上面定义了一个取值范围在（-10，10）的变量维度为1，2

离散空间主要有

spaces.Discrete，例如
```
  self.observation_space = spaces.Discrete(2)
```
上面定义了一个变量空间范围为[0,2) 之间的整数
spaces.MultiBinary，例如
```
  self.observation_space = spaces.MultiBinary(2)
```
上面定义了一个变量空间为0，1的2维整数变量

spaces.MultiBinary，例如

  self.observation_space = MultiDiscrete（）

其他还可以定义一个元组或者字典等变量空间。

zachary2wave

关注

12
点赞
踩
72

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录