- 王树森老师《深度强化学习基础》学习笔记
四、Actor-Critic Methods
Value Network and Policy Network
-
用策略网络 π \pi π 来 近似 策略函数 π \pi π(相当于运动员),用价值网络 q q q 来 近似 动作价值函数 Q Q Q(相当于裁判)。
-
同时训练策略网络和价值网络就被称为 Actor-Critic Methods。
-
State-Value Function Approximation:
Train the Neural Networks
-
Train the networks
-
更新策略网络 θ \theta θ 的值是为了让 V V V 的值增加,其更新受 q q q 监督。
-
更新价值网络 q q q 的值是为了让 q q q 的打分更加精准。
-
网络的训练(参数 θ \theta θ 和 参数 q q q 的更新):
-
-
用 TD 算法更新价值网络 q q q:
-
用策略梯度(policy gradient)更新策略网络 π \pi π(详见上节):
Actor-Critic Method
-
流程:
-
算法:
- 注意 a ~ t + 1 \widetilde{a}_{t+1} a t+1 并不是真的执行的动作,而是根据状态 s t + 1 s_{t+1} st+1 随机抽样得到的,用完后就丢弃掉了。
- 每一轮迭代都做这 9 个步骤,只做一次动作,观测一个奖励,更新一次神经网络参数。
- 使用 2 为 标准算法,使用 1 为 Policy Gradient with Baseline(效果更好,原因:可以降低方差让算法收敛的更快)。
总结:
-
Policy Network and Value Network:
-
Roles of Actor and Critic:
-
Training: