DPG是一种Actor-Critic 方法。由一个策略网络和一个价值网络组成
策略网络的输入是状态S,输出是一个确定的动作(两个小方块表示自由度为2)。价值网络的输入是动作和状态,输出是一个打分。
使用TD算法更新价值网络
策略网络的训练
与之前使用的随机策略梯度不同,这里需要用到确定策略梯度(价值Q关于策略网络
θ
\theta
θ的梯度)。
梯度从价值V传播到动作A,再从动作A传播到策略网络。
改进Bootstrapping问题:Target Networks
用一个新的Target Networks来改进自举的问题
总体流程
随机策略网络与确定策略网络对比