一文搞懂策略梯度(Policy gradient)算法(二)

前情回顾

在上文 一文搞懂策略梯度(Policy gradient)算法(一) 中,我们主要介绍了PG算法的目标函数以及策略梯度。
可知,在PG算法中,用 ∇ J ( θ t ) \nabla{J(\theta_t)} J(θt) 的近似来更新策略网络参数 θ \theta θ,从而增大目标函数。在策略梯度计算公式的最后推导中,我们得到策略梯度 ∇ J ( θ t ) \nabla{J(\theta_t)} J(θt) 的无偏估计

同时,留下了一个尾巴——如何得到动作价值函数 Q π Q_{\pi} Qπ

为了解决这个问题,本文将分别介绍 REINFORCE 算法和 Actor-Critic 算法,并进一步得到改进版的带基线的策略梯度算法,即 REINFORCE with baseline 以及 advantage actor-critic(A2C)

REINFORCE

用一句话来概括: REINFORCE 进一步对 Q π Q_{\pi} Qπ 做蒙特卡洛近似,将其替换为回报 u u u

蒙特卡洛的哲学思想——没有模型,上数据

在智能体和环境的交互中,定义 t t t 时刻的折扣回报为:

动作价值为回报的条件期望:

因此,可以使用蒙特卡洛近似上面的条件期望——
从时刻 t t t 开始,有 u t = ∑ k = t n γ k − t . r k u_t=\sum_{k=t}^n\gamma^{k-t}.r_k ut=k=tnγkt.rk。这里的 u t u_t ut 是随机变量 U t U_t Ut 的观测值,因此 u t u_t ut 是上面公式中期望的蒙特卡洛近似,可以使用 u t u_t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值