RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C
Pollicy Gradient
Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播。 通过更新 Policy Network 来直接更新策略的。实际上就是一个神经网络,输入是状态,输出直接就是动作(不是Q值)。而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。一般输出有两种方式:一种是概率的方式,即输出某一个动作的概率;另一种是确定性的方式,即输出具体的某一个动作举例如下图所示:输入当前的状态,输出action的概率分布,选择概率最大的一个action作为要执行的操作
如果要更新 Policy Network 策略网络,或者说要使用梯度下降的方法来更新网络,需要有一个目标函数,对于所有强化学习的任务来说,其实目标都是使所有带衰减 reward 的累加期望最大。
L ( θ ) = E ( r 1 + γ r 2 + γ 2 r 3 + … ∣ π ( , θ ) ) L(θ)=E(r_1+γr_2+γ^2r_3+…|π(,θ)) L(θ)=E(r1+γr2+γ2r3+…∣π(,θ))
这个损失函数和 Policy Network 策略网络简直没有什么直接联系,reward是环境给出的,跟参数 θ 没有直接运算上的关系。那么该如何能够计算出损失函数关于参数的梯度 ∇θL(θ)?
现在有一个 Policy Network 策略网络,输入状态,输出动作