深度强化学习(4): Actor-Critic 方法篇

  • 王树森老师《深度强化学习基础》学习笔记

四、Actor-Critic Methods

Value Network and Policy Network

  • 用策略网络 π \pi π 来 近似 策略函数 π \pi π(相当于运动员),用价值网络 q q q 来 近似 动作价值函数 Q Q Q(相当于裁判)。

  • 同时训练策略网络和价值网络就被称为 Actor-Critic Methods。

  • State-Value Function Approximation:
    在这里插入图片描述

Train the Neural Networks

  • Train the networks

    • 更新策略网络 θ \theta θ 的值是为了让 V V V 的值增加,其更新受 q q q 监督。

    • 更新价值网络 q q q 的值是为了让 q q q 的打分更加精准。

    • 网络的训练(参数 θ \theta θ 和 参数 q q q 的更新):

  • 用 TD 算法更新价值网络 q q q

  • 用策略梯度(policy gradient)更新策略网络 π \pi π(详见上节):

Actor-Critic Method

  • 流程:

  • 算法:

    • 注意 a ~ t + 1 \widetilde{a}_{t+1} a t+1 并不是真的执行的动作,而是根据状态 s t + 1 s_{t+1} st+1 随机抽样得到的,用完后就丢弃掉了。
    • 每一轮迭代都做这 9 个步骤,只做一次动作,观测一个奖励,更新一次神经网络参数。
    • 使用 2 为 标准算法,使用 1 为 Policy Gradient with Baseline(效果更好,原因:可以降低方差让算法收敛的更快)。

总结:

  • Policy Network and Value Network:

  • Roles of Actor and Critic:

  • Training:

参考与感谢:

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值