2021-2-24-2

最新推荐文章于 2024-07-20 15:20:48 发布

THU_jie

最新推荐文章于 2024-07-20 15:20:48 发布

阅读量246

点赞数

文章标签： tensorflow

本文链接：https://blog.csdn.net/qq_37445049/article/details/114040612

版权

强化学习尝试-gym学习

查看gym包含的场景信息

from gym import envs
import pandas as pd
space_names = ['观测空间', '动作空间', '奖励范围', '最大步数']
df = pd.DataFrame(columns=space_names)
env_specs = gym.envs.registry.all()
for env_spec in env_specs:
    env_id = env_spec.id
    try:
        env = gym.make(env_id)
        observation_space = env.observation_space
        action_space = env.action_space
        reward_range = env.reward_range
        max_episode_steps = None
        if isinstance(env, gym.wrappers.time_limit.TimeLimit):
            max_episode_steps = env._max_episode_steps
        df.loc[env_id] = [observation_space, action_space, reward_range, max_episode_steps]
    except:
        pass
with pd.option_context('display.max_rows', None):
    display(df)

gym的相关操作

env=gym.make('CartPole-v0') #进入环境
env.reset()  #重置并启动环境
#################查看状态信息#############
print('观测空间={}'.format(env.observation_space))
print('动作空间={}'.format(env.action_space))
print('观测范围={}~{}'.format(env.observation_space.low,env.observation_space.high))
print('动作数={}'.format(env.action_space.n))
############图像显示##############################
env.render()
############图像关闭###############################
env.close()

小车上坡代码

import gym
import pandas as pd
import numpy as np
env = gym.make('MountainCar-v0')
print('观测空间 = {}'.format(env.observation_space))
print('动作空间 = {}'.format(env.action_space))
print('观测范围 = {} ~ {}'.format(env.observation_space.low,
        env.observation_space.high))
print('动作数 = {}'.format(env.action_space.n))
class BespokeAgent:
    def __init__(self, env):
        pass
    
    def decide(self, observation): # 决策
        position, velocity = observation
        lb = min(-0.09 * (position + 0.25) ** 2 + 0.03,
                0.3 * (position + 0.9) ** 4 - 0.008)
        ub = -0.07 * (position + 0.38) ** 2 + 0.07
        if lb < velocity < ub:
            action = 2
        else:
            action = 0
        return action # 返回动作
    def learn(self, *args): # 学习
        pass
agent = BespokeAgent(env)


def play_montecarlo(env, agent, render=False, train=False):
    episode_reward = 0. # 记录回合总奖励，初始化为0
    observation = env.reset() # 重置游戏环境，开始新回合
    while True: # 不断循环，直到回合结束
        if render: # 判断是否显示
            env.render() # 显示图形界面，图形界面可以用 env.close() 语句关闭
        action = agent.decide(observation)
        next_observation, reward, done, _ = env.step(action) # 执行动作
        episode_reward += reward # 收集回合奖励
        if train: # 判断是否训练智能体
            agent.learn(observation, action, reward, done) # 学习
        if done: # 回合结束，跳出循环
            break
        observation = next_observation
    return episode_reward # 返回回合总奖励

env.seed(0) 
episode_reward = play_montecarlo(env, agent, render=True)
print('回合奖励 = {}'.format(episode_reward))
env.close()

episode_rewards = [play_montecarlo(env, agent) for _ in range(100)]
print('平均回合奖励 = {}'.format(np.mean(episode_rewards)))

THU_jie

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-2-24-2

强化学习尝试-gym学习查看gym包含的场景信息from gym import envsimport pandas as pdspace_names = ['观测空间', '动作空间', '奖励范围', '最大步数']df = pd.DataFrame(columns=space_names)env_specs = gym.envs.registry.all()for env_spec in env_specs: env_id = env_spec.id try:
复制链接

扫一扫