DDPG的前世今生

最新推荐文章于 2022-07-07 22:56:02 发布

NirvanaXJ

最新推荐文章于 2022-07-07 22:56:02 发布

阅读量950

点赞数

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_44742430/article/details/115718681

版权

记录思路

最先接触到的是DDPG（深度确定策略梯度）这个算法，但是一开始并没有注意到这个基本方法。

直到在文献阅读过程中遇到了许多基于DDPG的算法变体，开始意识到这一系列算法的演变，遂查阅了一下相关的技术帖。此处仅作记录，原创作者见跳转链接。

这是按照查询步骤形成的过程：

Markov decision process
https://blog.csdn.net/liweibin1994/article/details/79079884；
Q-learning
https://blog.csdn.net/qq_30615903/article/details/80739243；
DQN & DDPG
https://blog.csdn.net/suiyuejian/article/details/111867071；
MADDPG
暂无；
MARDDPG
暂无；

从MARDDPG出发追溯到DDPG这个经典的深度强化学习算法，进而联想到其与DQN的区别与联系——DDPG在DQN上加入了策略网络，可以输出连续的动作，其他处理方式基本相同。

而在DQN中会频繁的提及马尔科夫决策过程，这让我想到什么样的情形可以看作Markov decision process，进而有了这篇笔记。