强化学习课程学习(7)——基于策略梯度方法求解RL

本文探讨了强化学习中基于策略梯度(Policy Gradient, PG)的方法,作为对价值函数近似表示的补充。文章介绍了PG算法在处理连续动作和受限状态问题上的优势,并通过CartPole问题的实例展示了策略梯度的应用。通过神经网络优化策略函数,计算策略梯度以更新参数。最后,指出了PG方法在样本效率和稳定性上的挑战。" 132329493,19694860,Qt QLayout子项遍历技巧,"['QT', '开发语言']
摘要由CSDN通过智能技术生成

在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如策略梯度(Policy Gradient)Actor-CriticAsynchronous Advantage Actor-critic(以下简称A3C)等。

整体来看下强化学习的分类:

在这里插入图片描述

Value Based强化学习方法存在很多不足之处,主要体现以下几点:

  • 对连续动作的处理能力不足DQN之类的方法一般都是只处理离散动作,无法处理连续动作。
  • 对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时,有可能因为个体观测的限制或者建模的局限,导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述,进而很有可能导致我们的value Based方法无法得到最优解。
  • 无法解决随机策略问题Value Based强化学习方法对应的最优策略通常是确定性策略,因为其是从众多行为价值中选择一个最大价值的行为,而有些问题的最优策略却是随机策略,这种情况下同样是无法通过基于价值的学习来求解的。这时也可以考虑使用Policy Based强化学习方法。

Policy Gradient(PG)

  • 在强化学习中,有两大类方法,一种基于值(Value-based),一种基于策略(Policy-based

    • Value-based的算法的典型代表为Q-learningSARSA,将Q函数优化到最优,再根据Q函数取最优策略。
    • Policy-based的算法的典型代表为Policy Gradient
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值