(RL强化学习)Actor-Critic

Actor-Critic

  • policy gradient 中accumulate reward较不稳定 分布较大

在这里插入图片描述

  • 一个方法是取accmulate reward的期望值

Actor-Critic

  • accmulate reward的期望值就是Qfunction出来的值 Q的定义:在state 采取 action知道游戏结束得到accmulate reward的期望

  • 将policy gradient 的两项用Q V替换就是AC

在这里插入图片描述

Advantage AC

  • 有两个network Q V 但是只需要估计一个network

  • 用V和state采取action得到的r表示Q

在这里插入图片描述

  • A2C流程

    • init一个action π

    • estimate出V(TD/MC)

    • 用V update π

    • 优化成π1

    • 更新V

在这里插入图片描述

  • Tips
    • actor和V 可以共享网络的前几个层(可能前几个维度都需要将image放到高维产生特征)

Asynchronous Advantage AC

  • 同时开很多“分身”(worker)

  • 最后每个“分身”汇总参数到global network

  • 每一个worker copy global network的参数 然后计算gradient

  • update global network
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值