【强化学习-04】Actor-critic algorithm

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

Actor-critic algorithm

在这里插入图片描述

Value network and policy network

注意这里的符号

  • π ( a ∣ s ) \pi(a|s) π(as): 指的是policy分布,是精确的分布,只是我们不知道具体形式
  • π ( a ∣ s , θ ) \pi(a|s, \theta) π(as,θ): 指的是用一个神经网络去近似 π ( a ∣ s ) \pi(a|s) π(as),其中 θ \theta θ是神经网络的参数。
  • Q π ( s , a ) Q_{\pi}(s, a) Qπ(s,a): 是指策略函数为 π \pi π,状态为 s s s, 动作为 a a a的时候的动作价值函数。
  • q ( s , a ; w ) q(s, a; \mathbf{w}) q(s,a;w): 指用一个神经网络 q ( s , a ; w ) q(s, a; \mathbf{w}) q(s,a;w)去近似动作价值函数 Q π ( s , a ) Q_{\pi}(s, a) Qπ(s,a)。其中 w \mathbf{w} w是神经网络的参数。

在这里插入图片描述

在这里插入图片描述

输入:可以是一帧或者好几帧frame

在这里插入图片描述

  • 注意,value network q ( s , a ; w ) q(s, a; \mathbf{w}) q(s,a;w)可以和策略网络 policy network π ( s , a ; θ ) \pi(s, a; \theta) π(s,a;θ)共享相同的卷积层 conv, 但是也可以是完全独立的,各自有各自的参数。
  • 同时训练 value network q ( s , a ; w ) q(s, a; \mathbf{w}) q(s,a;w)和策略网络 policy network π ( s , a ; θ ) \pi(s, a; \theta) π(s,a;θ)就叫做Actor critic algorithm.
  • 训练的目的,是让运动员的平均分越来越高,并且让裁判的评分越来越精准

在这里插入图片描述

训练神经网络

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 注意:value network只是起辅助作用,训练完成之后就不再被用了。最后被使用的还是policy network.

Summary

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值