gym Pendulum-v0

原文链接: gym Pendulum-v0

上一篇: tensorflow_probability

下一篇: tf actor critic Pendulum-v0 钟摆

gym 环境解析:Pendulum-v0

2.1 Observation & state

973bf8f67c156f64e402d46e1ad1f6e70d4.jpg

state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息

2.2 Actions

7747af86a82846d5fff43711b60963a66c5.jpg

2.3 Reward

奖励的精确等式:
-(\theta^2 + 0.1*\theta_{dt}^2 + 0.001*action^2)

\theta-pipi 之间归一化。因此,
最小代价是 - (pi ^ 2 + 0.1 * 8 ^ 2 + 0.001 * 2 ^ 2)= - 16.2736044
最高代价为0。
实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。

2.4 初始状态

-pipi 的随机角度,以及-1和1之间的随机速度

2.5 终止状态- Episode Termination

没有指定的终止状态。 添加最大步数可能是个好主意。


随机选择动作执行,不会停止

import gym
name = "Pendulum-v0"
# name = "CartPole-v0"
env = gym.make(name)
env.reset()
action = env.action_space.sample()
print(env.action_space)
print(env.observation_space)
observation, reward, done, info = env.step(action)
print(observation, reward, done, info)
while True:
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)
    print(reward)
    env.render()

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值