一、环境
首先要了解DDPG基本结构
(20 封私信 / 5 条消息) 怎么通俗解释强化学习算法DDPG? - 知乎 (zhihu.com)
DDPG是处理连续型动作空间”的环境"如 单摆(Pendulum)
mario是属于离散型动作空间,所以要使用DDPG,需要将处理的动作离散化
具体可以看 这个博客·http://t.csdnimg.cn/PemKJ
二、源码-处理连续动作代码
源码是来自这个博主的 DDPG处理连续型动作空间-单摆
ps:安装好视频下面的环境要求
其中dill版本不能太高 0.3.3可以
【[重置版]强化学习系列教程8:DDPG 算法 实现单摆的控制 || A2C算法变种】 https://www.bilibili.com/video/BV1JN4y1z724/?share_source=copy_web&vd_source=1a763c7a50c2da6d1ea9f61655bdef89
三、处理“离散型动作空间”的环境"⻢⾥奥代码_链接在最后
应用mario环境首先下载游戏环境
pip install gym-super-mario-bros
网盘代码都是在上面源码改动得到
训练mario智能体环境代码 main_ddpg.py
其中对游戏图像预处理 函数想法来自博客http://t.csdnimg.cn/LY9X0中游戏图像处理
四、mario代码网盘连接
链接: https://pan.baidu.com/s/1zSSX3fA-i3YS6bp_zAPJbQ?pwd=1111 提取码: 1111