目录
TD3:Twin Delayed Deep Deterministic Policy Gradient,是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在DDPG算法基础上,同时对policy网络和value网络进行改进,优化了Q-Value的过高估计问题。
模型架构
Double Q-learning
DDQN借鉴了Double Q-learning的思想,将选取action和估计value分别在predict network和target network网络上计算,有效优化了DQN的Q-Value过高估计问题。
TD3采用了更加原始的Double Q-learning方法,单独设计了两个网络(Twin)表示不同的Q-Value,通过选取最小的Target Q,来抑制持续地过高估计。