强化学习: 参数化动作空间环境gym-platform(1)

gym-platform环境安装

前提:已经安装里gym

主页:

https://github.com/cycraig/gym-platform

安装:

git clone https://github.com/cycraig/gym-platform.git

cd gym-platform

sudo pip install -e '.[gym-platform]'

 

gym-platform环境介绍

构造环境

import gym

import gym_platform

env = gym.make('Platform-v0')

动作域

print env.action_space  返回  Tuple(Discrete(3), Tuple(Box(1,), Box(1,), Box(1,)))

产生一个动作实例print env.action_space.sample()  返回 (2, (array([2.5365129], dtype=float32), array([508.39426], dtype=float32), array([424.9122], dtype=float32)))

也可以通过  /gym-platform/gym_platform/envs/platform_env.py

离散动作三个   ACTION_LOOKUP = {0: RUN,1: HOP,2: LEAP,}

连续参数有三个   最小值  PARAMETERS_MIN = np.array([0, 0, 0])

连续动作的最大值    PARAMETERS_MAX = np.array([30, # run720, # hop  430 # leap])

状态空间

print env.observation_space   返回   Tuple(Box(9,), Discrete(200))  是一个9维向量

打开看看效果

for i_episode in range(20):
    observation = env.reset()
    for t in range(1000):
        env.render()  # 环境展示
        print(observation)
        action = env.action_space.sample()  # 随机从动作空间中选取动作
        observation, reward, done, info = env.step(action)  # 根据动作获取下一步的信息
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

接下来就可以开始使用pamdp的强化学习算法学习啦

 

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页