策略梯度：Policy Gradient

最新推荐文章于 2024-07-30 01:27:39 发布

执妄

最新推荐文章于 2024-07-30 01:27:39 发布

阅读量478

点赞数

分类专栏： Reinforcement Learning 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41799736/article/details/124217985

版权

Reinforcement Learning 专栏收录该内容

9 篇文章

订阅专栏

为什么需要策略？
环境中存在大量的动作，甚至具有连续的动作空间。如果用 $Q (s, a)$ 来寻找最佳的动作，需要解决一个最优化的问题，即寻找使 $Q (s, a)$ 最大的a。这个问题在非离散集合中会变得非常难，在这种情况下直接使用策略更为可行。另外，它是环境具有随机性的体现，和Categorical DQN方法具有相同的思想。

1 Reinforce方法

请添加图片描述

1.1存在的问题

需要完整的片段:在开始训练之前，需要等待完整的episode完成。需要与环境进行大量的交互才能执行单个训练步骤。克服的方法有要求网络估计 $V (s)$ 并用估计值来获得 $Q$ 值，即actor-critic方法。也可以在Bellman方程中提前展开N步。
高梯度方差。在策略梯度中，有一个与给定状态的折扣奖励成比例的梯度。如果失败情况和成功情况价值相差很大，则两者梯度缩放的差异会很大。即策略梯度具有很大的方差，因此需要在复杂的环境中对此进行一些处理。否则，训练过程可能会变得不稳定。解决此问题的方法是减去一个成为基线的值。
探索。即使策略表示为概率分布，智能体也有可能会收敛到某些局部最优策略并停止搜索环境。可以使用熵奖励的方法来解决。在损失函数中减去熵，以惩罚智能体过于确定要采取的动作。
样本相关性。单个片段中训练样本通常是高度相关的，这对随机梯度下降不利。为了解决该问题，可以使用并行环境，不止同一个环境交互，而是同多个环境交互并将其状态转移用作训练数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。