强化学习 OpenAI GYM 创建自己的环境（官方）

最新推荐文章于 2024-06-12 16:39:33 发布

一口气吃五碗饭的阿霖

最新推荐文章于 2024-06-12 16:39:33 发布

阅读量1.9k

点赞数 4

分类专栏： openAI 文章标签：强化学习 python

本文链接：https://blog.csdn.net/weixin_39986534/article/details/118178170

版权

openAI 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考链接

首先放上两个链接

一个是官方自己的教程
 一个是官方教程的demo

首先创建一个目录结构

gym-foo/          
  README.md   
  setup.py  
  gym_foo/        
    __init__.py
    envs/
      __init__.py
      foo_env.py
      foo_extrahard_env.py

我自己的一级目录

一级目录 gym-foo

修改 setup.py

from setuptools import setup

setup(name='gym_foo', # 你自己的二级目录的名字
      version='0.0.1',
      install_requires=['gym']  # And any other dependencies foo needs
)

二级目录 gym-foo/gym_foo/

修改文件 _init_.py

from gym.envs.registration import register

register(
    id='foo-v0',
    entry_point='gym_foo.envs:FooEnv',
)

三级目录 gym-foo/gym_foo/envs/

1、加上你的环境名字命名为 foo_env .py
类名为 FooEnv 这里千万不要打错了因为后面要注册

这里我在官方环境基础上加上了打印

import gym
from gym import error, spaces, utils
from gym.utils import seeding

class FooEnv(gym.Env):
  metadata = {'render.modes': ['human']}

  def __init__(self):

    self.action_space = spaces.Box(low=-1, high=1, shape=(3,))  # 动作空间 
    self.observation_space = spaces.Box(low=-1, high=1, shape=(1,))  # 状态空间
    print("init")

  def step(self, action):

    print("step",action)
    obs, reward, done, info = 1,2,3,4
    return obs, reward, done, info
  def reset(self):
    print("reset")



  def render(self, mode='human'):
    print("render")
  def close(self):
    print("close")

2 修改 _init_.py 文件

from gym_foo.envs.foo_env import FooEnv

安装你的环境

回到一级目录
输入命令

pip install -e gym-foo

测试

import gym
env = gym.make('my_env:test-v0')
env.reset()
for _ in range(1000):
    env.render()
    action = env.action_space.sample()
    print(action)
    env.step(action) # take a random action
env.close() # 關閉視圖

就可以看到环境的打印啦

附言第一次需要创建自己的环境需要注意什么？

首先是奖励的设置尤为重要，

对于同一类别的好坏量纲不能差距过大，比如说好的奖励1分坏的却要惩罚-100分，
奖励最好有递增或者递减的感觉，比如虽然agent犯了错误但是不能一刀切的全部给个-100分而是应该依据它错误的程度，犯错严重就惩罚重一些轻就扣少一点。
对于奖励或者错误的分数如果随着训练增幅是指数的增长的特别迅猛则应该采取分段奖励或者惩罚的函数，这样既能保证奖励的递增和递减也可以兼顾到量纲让模型更容易的学习
奖励最终如果还是太大或者太小可以采取 scaling的方式
动作和状态最好也要注意量纲归一化

一口气吃五碗饭的阿霖

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
5
评论
强化学习 OpenAI GYM 创建自己的环境（官方）

目录参考链接首先创建一个目录结构一级目录 gym-foo二级目录 gym-foo/gym_foo/三级目录 gym-foo/gym_foo/envs/安装你的环境测试参考链接首先放上两个链接一个是官方自己的教程一个是官方教程的demo首先创建一个目录结构gym-foo/ README.md setup.py gym_foo/ __init__.py envs/ __init__.py foo_en
复制链接

扫一扫