A2C算法

A2C算法

要点
  • A2C算法中引入Advantage的概念,使用Q函数期望值V作为baseline,并以两者差值作为优势。

  • 为了减少未知变量的数量,使用 r t + 1 + γ V t ( s + 1 ) r_{t+1}+\gamma V_t(s+1) rt+1+γVt(s+1)来近似Q函数

  • 从Actor-Critic角度来看,critic通过观察actor根据 π \pi π做出的动作,计算出优势函数 A t A_t At作为一种"评价",指导了actor参数的修正

  • 对于多久更新一次参数的问题,各个算法库的更新方式不尽相同,有以下几种

    • 每个时间步一更新
    • 每n步一更新
    • 每个episode一更新

    下面伪代码中用的是第一种:
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值