gym基础功能

最新推荐文章于 2024-05-27 18:07:17 发布

风可。

最新推荐文章于 2024-05-27 18:07:17 发布

阅读量1.3k

点赞数 1

分类专栏：强化学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012925804/article/details/127767372

版权

强化学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Gym实现了经典的”agent-environment“（智能体-环境）的循环。

智能体会执行动作（action），然后观察（observes）到环境状态（state）的变化，并且会收到奖励（reward），这样的一次“动作-观察”循环叫做timestep。

强化学习的目的就是为了最大化总体的奖励。

经过一些时间步骤后，环境可能进入结束状态。例如，机器人可能已经崩溃了!在这种情况下，我们希望将环境重置为新的初始状态。

hello gym

下面是一个gym的案例，每次的action是随机采样的。

import gym
# env = gym.make("LunarLander-v2", render_mode="human")
env = gym.make("FrozenLake-v1", render_mode="human")
env.action_space.seed(42)

observation, info = env.reset(seed=42)
print(env.action_space)

for i in range(1000):
    # print(env.action_space)
    print(env.action_space.sample())

    observation, reward, terminated, truncated, info = env.step(env.action_space.sample())

    if terminated or truncated:
        observation, info = env.reset()
        print("done")

env.close()

Playing within an environment

在环境里面打游戏。

mapping用来映射键盘到action。

callback用来记录玩游戏过程中的reward。

import gym
import pygame
from gym.utils.play import play, PlayPlot

mapping = {(ord('w'),): 1, (ord('e'),): 2, (ord('r'),): 3}
mapping = {(pygame.K_LEFT,): 3, (pygame.K_RIGHT,): 1, (pygame.K_DOWN,): 2,(pygame.K_UP,): 0, } ## 键盘映射到action
def callback(obs_t, obs_tp1, action, reward, terminated, truncated, info):
    ## 记录玩游戏过程中的信息
    return [reward,]
plotter = PlayPlot(callback, 30 * 5, ["reward"]) 

play(gym.make("LunarLander-v2",render_mode='rgb_array'), keys_to_action=mapping, callback=plotter.callback)

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
gym基础功能

gym基础功能
复制链接

扫一扫

专栏目录

风可。 CSDN认证博客专家 CSDN认证企业博客

码龄11年

148: 原创

5万+: 周排名

38万+: 总排名

24万+: 访问

: 等级

3084: 积分

67: 粉丝

106: 获赞

45: 评论

393: 收藏

私信

关注

热门文章

分类专栏

AIGC 1篇
并行计算 6篇
强化学习 16篇
机器视觉 23篇
深度学习 37篇
运筹优化 1篇
论文 22篇
杂项 5篇
图像可视化 7篇
go
golang 1篇
大数据 6篇
NLP 2篇
推荐系统 4篇
sota2020 1篇
CVPR2020
数字图像处理 8篇
机器学习 8篇
数据结构算法 16篇
python 10篇

最新评论

[强化学习总结5] 梯度策略方法
19 W: 博主你好，在1.2节这里我想请教一下： q_values = self.q_net(states).gather(1, actions) # Q值我在离散SAC算法中，假设我的actor用sigmoid激活输出离散动作的概率probs，用torch.distributions.Bernoulli采样，此时由于我的动作值仅为0或1（假设5维），而不像softmax采样得到的动作0/1/2/3/4，此时在update更新网络参数时就没法用torch.gather来获取actions对应的critic值了，这里该怎么处理呢？动作概率对数我可以通过采样集 torch.distributions.Bernoulli.log_prob(actions)获取，但是critic值这块我就不知道怎么处理了
Pyvista---(4)pyvista中常用的函数和应用1
python？？: 能出一个pyvistaqt的教程吗？
解决OpenAI‘s services are not available in your country. (error=unsupported_country)
远行人_Xu: 不管用
解决OpenAI‘s services are not available in your country. (error=unsupported_country)
jessezappy: 没用，我还是在华盛顿的虚拟主机上打开，都不行，还是unsupported_country 错误
解决OpenAI‘s services are not available in your country. (error=unsupported_country)
十&年: 咋弄啊我也不行哇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。