Stable Baselines/用户向导/使用自定义环境

本文档介绍了如何在Stable Baselines中使用自定义的RL环境,该环境需遵循Gym接口,实现特定方法。内容包括环境必须实现的方法,如图像输入的标准化,以及如何注册环境以便于训练。还提供了一份创建自定义Gym环境的教程和项目中的自定义环境使用示例。
摘要由CSDN通过智能技术生成

Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档,水平有限,如有错误万望指正

在自定义环境使用RL baselines,只需要遵循gym接口即可。

也就是说,你的环境必须实现下述方法(并且继承自OpenAI Gym类):

如果你用图像作为输入,输入值必须在[0,255]因为当用CNN策略时观测会被标准化(除以255让值落在[0,1])

import gym
from gym import spaces

class CustomEnv(gym.Env):
  """Custom Environment that follows gym interface"""
  metadata = {'render.modes': ['human']}

  def __init__(self, arg1, arg2, ...):
    super(CustomEnv, self).__init__()
    # Define action and observation space
    # They must be gym.spaces objects
    # Example when using discrete actions:
    self.action_space = spaces.Discrete(N_DISCRETE_ACTIONS)
    # Example for using image as input:
    self.observation_space = spaces.Box(low=0, high=255,
                                        shape=(HEIGHT, WIDTH, N_CHANNELS), dtype=np.uint8)

  def step(self, action):
    ...
  def reset(self):
    ...
  def render(self, mode='human', close=False):
    ...

然后你就可以用其训练一个RL智体:

# Instantiate and wrap the env
env = DummyVecEnv([lambda: CustomEnv(arg1, ...)])
# Define and Train the agent
model = A2C(CnnPolicy, env).learn(total_timesteps=1000)

这里有一份创建自定义Gym环境的在线教程

视需求,你还可以像gym注册环境,这可让用户实现一行创建Rl智体(并用gym.make()实例化环境)。

本项目中,为测试方便,我们在这个文件夹下创建了名为IdentityEnv自定义环境。这里有一个如何使用的案例展示。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值