gym Pendulum-v0

最新推荐文章于 2023-12-03 16:43:03 发布

阿豪boy

最新推荐文章于 2023-12-03 16:43:03 发布

阅读量620

点赞数

文章标签： python 强化学习 java linux 机器学习

本文链接：https://blog.csdn.net/qq_35516360/article/details/122065571

版权

原文链接: gym Pendulum-v0

上一篇: tensorflow_probability

下一篇: tf actor critic Pendulum-v0 钟摆

gym 环境解析：Pendulum-v0

2.1 Observation & state

state是最原始的环境内部的表示，observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态，而是经过我们的大脑加工过的信息

2.2 Actions

2.3 Reward

奖励的精确等式：
$-(\theta^2 + 0.1*\theta_{dt}^2 + 0.001*action^2)$

$\theta$ 在 $-pi$ 和 $pi$ 之间归一化。因此，
最小代价是 $- （pi ^ 2 + 0.1 * 8 ^ 2 + 0.001 * 2 ^ 2）= - 16.2736044$ ，
最高代价为0。
实质上，目标是保持零角度（垂直），旋转速度最小，力度最小。

2.4 初始状态

从 $-pi$ 和 $pi$ 的随机角度，以及-1和1之间的随机速度

2.5 终止状态- Episode Termination

没有指定的终止状态。添加最大步数可能是个好主意。

随机选择动作执行,不会停止

import gym
name = "Pendulum-v0"
# name = "CartPole-v0"
env = gym.make(name)
env.reset()
action = env.action_space.sample()
print(env.action_space)
print(env.observation_space)
observation, reward, done, info = env.step(action)
print(observation, reward, done, info)
while True:
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)
    print(reward)
    env.render()