1.创建CartPole-v0的环境
2.介绍环境的具体组成:每个环境都有observation space和action space
这个环境下的action space是二维,应该是{0,1}
action_space的类型是离散Discrete类型,范围是{0,1,...,n-1}长度为n的非负整数集合
observation_space是个Box类型,表示n维的盒子
3.对于Step的介绍
在每次执行完action以后,step函数会返回四个值,包括观测、奖励、完成、信息。
观测是执行完以后的环境状态
奖励是执行完以后智能体获得的奖励
完成是执行完以后当前instance/environment对象是否结束,这个是Boolen变量,如果为True表明当前回合episode或者tial结束,可以重置reset了
信息:大概用不着,是调试过程的诊断信息
4.Gym仿真的流程:每一个回合开始时,要重置环境reset()函数,返回初始观测信息,然后根据done标志位的状态,决定是否进行下一回合
4.一些常用函数汇总