1.深度强化学习------DDPG算法资料整理

近些天想用DRL在VREP中搞一个机械臂reach任务,首选了DDPG算法,算法运行效果有点不尽人意,actor的loss简直是要飞上天,于是陷入了漫长的调参过程,后续将考虑应用新的连续动作的控制算法或者对DDPG进行一系列的改进,不过这都是后面的事了。今天实在不想继续往下看了,整理一下近期看的一些关于DDPG的资料,方便日后查看,也方便同行们一起学习。

1. DDPG原理介绍

DDPG原理讲解BLOG①:这篇blog简明的讲出了DDPG的构成,并且解释了Actor和Critic的loss。
DDPG原理讲解BLOG②:这篇blog的讲解也比较细致,不过笔者更喜欢blog中的一些网络流程图,故此收藏。

2. DDPG中的trick

DDPG中的OU随机噪声的讲解

3. 基于PyTorch的ddpg的实现

Demo1
Demo2
Demo3
Demo4
Demo5
Demo6

4. DDPG调参

DDPG的调参过程是真的**,在知乎上看到有筒子调了一个多月,笔者也还挣扎在调参的苦海中。下面有两篇关于DDPG调参经验的blog
Blog①
Blog②

5. DDPG的改进方式
  • DDPG优先经验回放:这里实际上实在replay buffer做一些手脚,传统的训练过程是从replay buffer中随机抽取一些记忆,而prioritized experience replay在进行抽样时是按照memory的优先级进行抽样。利用TDerror计算每个memory的优先级,通过建立SumTree来实现这一过程。具体实现见该blog。 待尝试
  • DelayDDPG:改变更新网络的时机 待 尝 试 \color{red}{待尝试}
  • TD3–Twin DelayDDPG
    TD3 Twin DelayDDPG①
    TD3 Twin DelayDDPG②
    (尝试了该方法,不知为嘛,程序一直停留在最初的随机收集经验的阶段不继续执行,未果,先mark一下,之后如果解决了再回来补充)
  • 6
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值