gym的核心接口是environment,核心方法如下 reset():重置环境状态,回到初始环境,方便下一次训练step(action):完成一个时间步,返回4个值 observation:object, 对环境的观测reward:float,即时的奖励done:bool 是否需要重置环境(如游戏这个时间步后游戏结束)info :dict 用于调试诊断信息 render():重绘环境图像