一文搞懂策略梯度（Policy gradient）算法（二）

最新推荐文章于 2025-04-11 00:29:19 发布

子不语zZ

最新推荐文章于 2025-04-11 00:29:19 发布

阅读量2.2k

点赞数 11

分类专栏：机器学习文章标签：算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41262334/article/details/138065268

版权

前情回顾

在上文一文搞懂策略梯度（Policy gradient）算法（一）中，我们主要介绍了PG算法的目标函数以及策略梯度。
可知，在PG算法中，用 $\nabla{J(\theta_t)}$ 的近似来更新策略网络参数 $\theta$ ，从而增大目标函数。在策略梯度计算公式的最后推导中，我们得到策略梯度 $\nabla{J(\theta_t)}$ 的无偏估计

同时，留下了一个尾巴——如何得到动作价值函数 $Q_{\pi}$ ？

为了解决这个问题，本文将分别介绍 REINFORCE 算法和 Actor-Critic 算法，并进一步得到改进版的带基线的策略梯度算法，即 REINFORCE with baseline 以及 advantage actor-critic（A2C）。

REINFORCE

用一句话来概括： REINFORCE 进一步对 $Q_{\pi}$ 做蒙特卡洛近似，将其替换为回报 $u$ 。

蒙特卡洛的哲学思想——没有模型，上数据。

在智能体和环境的交互中，定义 $t$ 时刻的折扣回报为：

动作价值为回报的条件期望：

因此，可以使用蒙特卡洛近似上面的条件期望——
从时刻 $t$ 开始，有 $u_t=\sum_{k=t}^n\gamma^{k-t}.r_k$ 。这里的 $u_t$ 是随机变量 $U_t$ 的观测值，因此 $u_t$ 是上面公式中期望的蒙特卡洛近似，可以使用 $u_t$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。