DDPG处理“离散型动作空间”的环境“⻢⾥奥(mario)(附代码)

一、环境

        首先要了解DDPG基本结构

                (20 封私信 / 5 条消息) 怎么通俗解释强化学习算法DDPG? - 知乎 (zhihu.com)

        DDPG是处理连续型动作空间”的环境"如 单摆(Pendulum)

        mario是属于离散型动作空间,所以要使用DDPG,需要将处理的动作离散化

        具体可以看 这个博客·http://t.csdnimg.cn/PemKJ

二、源码-处理连续动作代码

        源码是来自这个博主的 DDPG处理连续型动作空间-单摆

        ps:安装好视频下面的环境要求

        

                其中dill版本不能太高  0.3.3可以

       【[重置版]强化学习系列教程8:DDPG 算法 实现单摆的控制 || A2C算法变种】 https://www.bilibili.com/video/BV1JN4y1z724/?share_source=copy_web&vd_source=1a763c7a50c2da6d1ea9f61655bdef89

三、处理“离散型动作空间”的环境"⻢⾥奥代码_链接在最后

        应用mario环境首先下载游戏环境

pip install gym-super-mario-bros

        网盘代码都是在上面源码改动得到

   训练mario智能体环境代码 main_ddpg.py

  其中对游戏图像预处理 函数想法来自博客http://t.csdnimg.cn/LY9X0中游戏图像处理

四、mario代码网盘连接

        链接: https://pan.baidu.com/s/1zSSX3fA-i3YS6bp_zAPJbQ?pwd=1111 提取码: 1111 

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值