DDPG的前世今生

这是一篇关于DDPG的笔记记录

记录思路

最先接触到的是DDPG(深度确定策略梯度)这个算法,但是一开始并没有注意到这个基本方法。

直到在文献阅读过程中遇到了许多基于DDPG的算法变体,开始意识到这一系列算法的演变,遂查阅了一下相关的技术帖。此处仅作记录,原创作者见跳转链接。

形成过程

这是按照查询步骤形成的过程:

  1. Markov decision process
    https://blog.csdn.net/liweibin1994/article/details/79079884;
  2. Q-learning
    https://blog.csdn.net/qq_30615903/article/details/80739243;
  3. DQN & DDPG
    https://blog.csdn.net/suiyuejian/article/details/111867071;
  4. MADDPG
    暂无;
  5. MARDDPG
    暂无;

从MARDDPG出发追溯到DDPG这个经典的深度强化学习算法,进而联想到其与DQN的区别与联系——DDPG在DQN上加入了策略网络,可以输出连续的动作,其他处理方式基本相同。

而在DQN中会频繁的提及马尔科夫决策过程,这让我想到什么样的情形可以看作Markov decision process,进而有了这篇笔记。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值