DDPG
简介
基于Deep Q-learning对连续动作空间的处理以及DPN的成功,提出了一种model-free(事先不知道环境的一切变化,这是与model-based的区别),actor-critic的算法用于解决连续空间问题。该算法可以直接对输入图片进行处理,并且表现非常优异。
神经网络应用于强化学习虽然取得了较好的成果,但是DQN只可以处理离散动作空间。当然,可以通过连续动作空间离散化进行处理,但是这样会随着维度的提升,计算量指数级增长,还会导致部分信息的丢失。在先前的工作当中,只用DQN或是只用DPN的效果都不是很好。最近有几点改进使得DQN的鲁棒性有所提高。(1) replay buffer的使用使得样本之间的联系降低;(2)使用目标价值网络和TD算法进行更新。(3)网络搭建过程中使用Batch Normalization。
算法
c r i t i c n e t w o r k Q ( s , a ∣ θ Q ) t a r g e t c r i t i c n e t w o r k Q ˊ ( s , a ∣ θ Q ˊ ) a c t o r n