DDPG算法
全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进
- 对DQN算法:使其能够适用于连续动作空间
- 对DPG算法:使用神经网络来拟合函数
算法介绍
核心:确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂
训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target
全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进
核心:确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂
训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target