Pathwise Derivative Policy Gradient(PDPG) 是一种强化学习方法,可以解决连续动作的问题。
这和我们树枝的DDPG指的是相同的算法。
1. 前缀知识
如果想比较深刻的理解Pathwise Derivative Policy Gradient(PDPG)需要提前了解一下内容:
- Policy Gradient:https://blog.csdn.net/qq_33302004/article/details/115495686
- Q-Learning:https://blog.csdn.net/qq_33302004/article/details/114871232
- Actor-Critic:https://blog.csdn.net/qq_33302004/article/details/115530428
2. 如何理解这个算法
我们可以从两个角度来理解 Pathwise Derivative Policy Gradient(PDPG) 算法,一个是从Actor-Critic算法角度去看、另一个是从Q-Learning角度去看。
与Actor-Critic对比理解
PDPG算法可以理解为一种特别的Actor-Critic算法,其区别就是,传统的Actor-Critic算法是用 V π ( s ) V^{\pi}(s) Vπ(s)作为Critic,而PDPG算法是使用 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)作为Critic。
与Q-Learning对比理解
PDPG算法解决了 Q-Learning算法无法解决连动作的问题,我们都知道Q-Learning算法的决策思路是