强化学习课程学习（7）——基于策略梯度方法求解RL

最新推荐文章于 2023-11-10 18:27:51 发布

置顶

芷若初荨

最新推荐文章于 2023-11-10 18:27:51 发布

阅读量850

点赞数 1

分类专栏：强化学习深度学习文章标签：强化学习 Policy Gredient 策略梯度深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cecilia620/article/details/106904433

版权

本文探讨了强化学习中基于策略梯度（Policy Gradient, PG）的方法，作为对价值函数近似表示的补充。文章介绍了PG算法在处理连续动作和受限状态问题上的优势，并通过CartPole问题的实例展示了策略梯度的应用。通过神经网络优化策略函数，计算策略梯度以更新参数。最后，指出了PG方法在样本效率和稳定性上的挑战。" 132329493,19694860,Qt QLayout子项遍历技巧,"['QT', '开发语言']

摘要由CSDN通过智能技术生成

在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如策略梯度(Policy Gradient)、Actor-Critic、Asynchronous Advantage Actor-critic(以下简称A3C)等。

整体来看下强化学习的分类：

在这里插入图片描述

Value Based强化学习方法存在很多不足之处，主要体现以下几点：

对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作，无法处理连续动作。
对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时，有可能因为个体观测的限制或者建模的局限，导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述，进而很有可能导致我们的value Based方法无法得到最优解。
无法解决随机策略问题。Value Based强化学习方法对应的最优策略通常是确定性策略，因为其是从众多行为价值中选择一个最大价值的行为，而有些问题的最优策略却是随机策略，这种情况下同样是无法通过基于价值的学习来求解的。这时也可以考虑使用Policy Based强化学习方法。

Policy Gradient(PG)

在强化学习中，有两大类方法，一种基于值（Value-based），一种基于策略（Policy-based）
- Value-based的算法的典型代表为Q-learning和SARSA，将Q函数优化到最优，再根据Q函数取最优策略。
- Policy-based的算法的典型代表为Policy Gradient

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。