记录思路
最先接触到的是DDPG(深度确定策略梯度)这个算法,但是一开始并没有注意到这个基本方法。
直到在文献阅读过程中遇到了许多基于DDPG的算法变体,开始意识到这一系列算法的演变,遂查阅了一下相关的技术帖。此处仅作记录,原创作者见跳转链接。
形成过程
这是按照查询步骤形成的过程:
- Markov decision process
https://blog.csdn.net/liweibin1994/article/details/79079884; - Q-learning
https://blog.csdn.net/qq_30615903/article/details/80739243; - DQN & DDPG
https://blog.csdn.net/suiyuejian/article/details/111867071; - MADDPG
暂无; - MARDDPG
暂无;
从MARDDPG出发追溯到DDPG这个经典的深度强化学习算法,进而联想到其与DQN的区别与联系——DDPG在DQN上加入了策略网络,可以输出连续的动作,其他处理方式基本相同。
而在DQN中会频繁的提及马尔科夫决策过程,这让我想到什么样的情形可以看作Markov decision process,进而有了这篇笔记。