1.env.render()函数用于渲染出当前的智能体以及环境的状态。
2.env.reset()为重新初始化函数
3.observation_, reward, done = env.step(action)
第一个为当前屏幕图像的像素值,经过彩色转灰度、缩放等变换最终送入我们上一篇文章中介绍的 CNN 中,得到下一步“行为”;
第二个值为奖励,每当游戏得分增加时,该返回值会有一个正反馈;
第三个值 gameover 为布尔值,如果游戏结束,返回 True;
1.env.render()函数用于渲染出当前的智能体以及环境的状态。
2.env.reset()为重新初始化函数
3.observation_, reward, done = env.step(action)
第一个为当前屏幕图像的像素值,经过彩色转灰度、缩放等变换最终送入我们上一篇文章中介绍的 CNN 中,得到下一步“行为”;
第二个值为奖励,每当游戏得分增加时,该返回值会有一个正反馈;
第三个值 gameover 为布尔值,如果游戏结束,返回 True;