Actor-Critic方法 王树森深度强化学习基础:actor-critic方法 No.1 Value Network & Policy Network 拿最近火的奥运举个可能不咋恰当的例子,可以这样理解actor是一个体操运动员,他可以做动作,如果他想拿金牌,他就得改进自己的动作,可是他不知道怎么改进自己,就需要裁判给运动员打分,运动员就知道什么动作分数高什么动作分数低。 同时训练策略网络和价值网络,就被称作Actor-Critic Method。 No.2 Train the Neural Networks 训练时,需更新两个神经网络的参数θ和w 每一轮迭代,只做一次动作,观测一次奖励,更新一次参数。 No.3 Summary