Pendulum-v0
1. 概述
倒立摆问题是控制文献中的经典问题。 在这个版本的问题中,钟摆以随机位置开始,目标是将其向上摆动,使其保持直立。
类型:连续控制
2. 环境
2.1 Observation & state
state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息
2.2 Actions
2.3 Reward
奖励的精确等式:
在
和
之间归一化。因此,
最小代价是
,
最高代价为0。
实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。
2.4 初始状态
从
和