Reinforcement Learning - An Introduction强化学习读书笔记 Ch10.1-Ch10.6

10.1 分幕式半梯度控制

将上一章中的半梯度异步方法延伸到动作价值上是本节的主要内容,在更新时可以使用 q π ( S t , A t ) q_\pi(S_t,A_t) qπ(St,At)的任意近似,例如一些常见的回溯值,如完整的蒙特卡洛回报或n步Sarsa回报。
动作价值函数预测的梯度下降更新的一般形式是:
在这里插入图片描述
例如单步Sarsa算法的更新可以表示为:
在这里插入图片描述
该方法成为分幕式半梯度单步Sarsa,对于一个固定的策略该方法的收敛情况和TD(0)一样具有相同的误差边界。
具体的伪代码如下:
在这里插入图片描述
算法中即是估计了状态动作值之后,使用贪心方法来选择动作。

10.2 半梯度n步Sarsa

可以使用n步回报来代替单步回报,来把上面的单步Sarsa方法转为n步Sarsa方法。
将n步回报从表格型形式推广到函数估计的形式:
在这里插入图片描述
而对应的更新公式就是:
在这里插入图片描述
而对应的伪代码就是:
在这里插入图片描述
注意该算法与之前算法的唯一不同就是回报的形式不同,w的更新方式不同。

10.3 平均收益:持续性任务中的新的问题设定

MDP过程中第三种经典的目标设定:“平均收益”设定。
平均收益即不考虑任何折扣,agent对于延迟收益和对即时收益的重视度是一样的,平均收益的定义如下:在这里插入图片描述
即回归进入强化学习最开始的对于回报的定义公式。考虑三方面的求和平均,考虑所有状态,所有一个状态下的所有动作,考虑状态和动作对应的下个状态的收益和收益概率的乘积,即可得到平均回报的期望值。
注意其中 μ π \mu_\pi μπ是一个稳态分布,假设对于每一个 π \pi π都存在并且独立于 S 0 S_0 S0的,并且MDP是具有遍历性的,也就是开始的位置或者agent的早期决定只是临时的作用,从长远来看,一个状态的期望值与策略本身以及MDP的转移概率有关,也就是:
在这里插入图片描述
稳态分布是一个特殊的分布,即如果按照 π \pi π选择动作也会得到相同的分布:
在这里插入图片描述
在平均收益设定中,回报是根据即时收益和平均收益的差来定义的:
在这里插入图片描述
这称为差分回报,对应的价值函数、贝尔曼方程都有对应的差分形式,去掉所有的折扣因子,并且用即时收益和真实平均收益之间的差来代替原来的即时收益:
在这里插入图片描述
对应的TD误差的差分形式为:
在这里插入图片描述
那对应的半梯度Sarsa的平均收益版本,只需要改动TD误差即可,伪代码如下:
在这里插入图片描述

10.4 弃用折扣

持续性的带折扣问题的公式化表达在表格型情况下非常有用,因为每个状态的回报可以被分别地识别和平均,但是在采用函数估计的情况下,则可以弃用折扣因子。
采用折扣时,可以计算得到折后回报和平均回报是成正比的,也就是对于策略 π \pi π,折后回报的平均值是 r ( π ) / ( 1 − γ ) r(\pi)/(1-\gamma) r(π)/(1γ),也就是说它本质上就是平均收益 r ( π ) r(\pi) r(π)
特别需要注意的是,在平均折后回报的设定中的策略排序,和平均收益设定中的策略排序是完全一样的,折扣率实际是没有用的。
通过假定策略排序的准则为折后回报的概率加权和,概率分布是给定策略下的状态分布,这时通过以下的数学证明其实折扣因子是可以去掉的:
在这里插入图片描述
该式中表明折扣在使用函数估计的控制问题定义中不起作用。
使用函数估计的折扣控制设定困难的根本原因在于我们失去了策略改进定理,我们再单个状态上改进折后状态不再保证我们会改进这个策略,无法满足这个就无法进行强化学习控制。

事实上,策略改进定理的缺失也是分幕式设定以及平均收益设定的理论缺陷,一旦引入了函数逼近,就无法保证在任何设定下都一定会有策略的改进,目前所讲到的学习动作价值的方法还没有一个局部的保证。

10.5 差分半梯度n步Sarsa

为了推广到n步自举法,之前的n步TD误差改为差分形式:
在这里插入图片描述
而对应的完整伪代码如下:
在这里插入图片描述
该算法即是把10.2的半梯度n步Sarsa和10.3中的半梯度差分Sarsa结合到一起。

10.6 本章小结

本章延伸了第九章中介绍的参数化函数估计和半梯度下降的思想,并引入了控制问题中。
并且针对持续性任务,本章引入了新的表达式,基于平均收益,并且从数学上证明了在函数估计的情况下,折扣因子是没用的。
平均收益的公式化表达涉及价值函数、贝尔曼方程和TD误差的新的差分版本,但所有版本和旧版本都相似,而且概念上的变化很小。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《强化学习导论》(Reinforcement Learning: An Introduction)是Richard S. Sutton和Andrew G. Barto合作编写的一本经典教材,是强化学习领域的一本重要参考书。该书系统地介绍了强化学习的基本概念、算法和应用。 这本书分为三个部分。第一部分概述了强化学习的基本概念和问题,介绍了强化学习的基本元素:智能体、环境、状态、动作、奖励等,并讨论了不同类型的强化学习问题。第二部分重点介绍了标准强化学习问题的解决方法,包括动态规划、蒙特卡罗方法和时间差分学习等。通过这些方法,可以学习到如何最大化累积奖励来达到特定目标。第三部分则讨论了强化学习中的其他重要主题,如函数近似学习、策略梯度方法、探索与利用的平衡等。 这本书有几个显著的特点。首先,它以直观的例子和图解介绍了强化学习的基本概念,使得读者能够更容易地理解和掌握相关知识。其次,书中提供了大量的算法和伪代码,方便读者实际操作和实现。此外,书中还包含了丰富的练习题和案例研究,可以帮助读者巩固学习成果和应用知识。 《强化学习导论》被广泛应用于学术界和工业界,对于研究者、学生和工程师都具有重要的参考价值。它为读者提供了一个系统和全面的学习路径,帮助他们深入理解强化学习的原理和方法,并在实际问题中应用和发展强化学习技术。通过阅读《强化学习导论》,读者将能够了解强化学习的基本思想,熟悉常用的解决方法,并能够运用这些知识解决实际问题,为相关领域的研究和应用做出贡献。 ### 回答2: 《强化学习导论》(Reinforcement Learning: An Introduction)是一本经典的强化学习教材,由Richard S. Sutton和Andrew G. Barto合著。 该书的主要目的是介绍强化学习的基本概念、方法和算法。强化学习是一种机器学习的分支,其中智能体通过与环境的交互来学习最佳行动策略。与传统的监督学习和无监督学习不同,强化学习的训练过程主要基于奖励信号的反馈。 《强化学习导论》的内容涵盖了强化学习的基础知识和重要概念。首先,书中介绍了马尔可夫决策过程(Markov Decision Process,MDP)作为强化学习问题的数学框架。然后详细介绍了值函数和策略的概念,以及如何通过值函数和策略来指导智能体的学习和决策过程。 该书还介绍了各种强化学习方法,如蒙特卡罗方法、时序差分学习和Q-learning等。这些方法用于解决基于模型(model-based)和非基于模型(model-free)的强化学习问题。每种方法的优点、局限性和适用场景都有详细阐述。 此外,《强化学习导论》还提供了大量的实例和案例研究,以帮助读者加深对强化学习理论的理解。书中还包含了许多练习题和算法伪代码,读者可以通过实践来巩固所学的知识。 总之,《强化学习导论》是一本系统全面介绍强化学习理论和方法的经典教材。它不仅适合作为强化学习领域的入门读物,也适合作为学术界和工业界从业人员的参考书籍。 ### 回答3: 《强化学习:一种介绍》(Reinforcement Learning: An Introduction)是由Richard S. Sutton和Andrew G. Barto合著的一本权威教材,详细介绍了强化学习的原理和应用。 该书首先从强化学习的基本概念入手,解释了强化学习与其他机器学习方法的区别。强化学习是一种学习代理如何通过与环境的交互来最大化奖励的方法。与监督学习和无监督学习不同,强化学习的代理在无人指导的情况下进行学习,通过不断试错来逐步提升策略的质量。 书中详细介绍了强化学习中的基本要素:环境、状态、动作和奖励。同时,书中还介绍了多种强化学习算法,包括动态规划、蒙特卡洛方法和时序差分学习等。这些算法分别适用于不同类型的问题和环境,读者可以根据具体情况选择合适的算法进行应用。 此外,书中还介绍了强化学习中的进一步概念,如函数逼近和价值函数等。函数逼近是解决大规模问题的关键技术,而价值函数则用于评估状态或策略的质量。通过这些进一步的概念,读者可以深入理解强化学习的工作原理,并应用于解决复杂实际问题。 《强化学习:一种介绍》是一本深入浅出、权威且易读的教材,适合学习强化学习的初学者和相关领域的研究人员。无论是对于计算机科学、人工智能还是机器学习感兴趣的读者,该书都提供了一个良好的入门指南,帮助读者理解并应用强化学习的基本原理和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值