《reinforcement learning:an introduction》第四章《Dynamic Programming》总结

由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。

对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。

因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。





注意,这一章讲的内容都是model-based的,即需要知道π(a|s)、P(s'|s,a)、R(s'|s,a);model based问题和full RL真正要解决的问题有些差别。另外,model-based方法往往称为planning,和(reinforcement) learning区别。


知道policy evaluation(prediction problem、itself an iterative computation、(greedy) policy improvement、policy iteration:

policy evaluation is obtained simply by turning the Bellman expected equation into an update rule 

DP algorithms are called full backups because they are based on all possible next states rather than on a sample next state

In some undiscounted episodic tasks there may be policies for which eventual termination is not guaranteed. For example, in some grid problem it is possible to go back and forth between two states forever.

policy improvement过程中,如果出现多个actions都能达到最大V,any apportionment of probability among these actions is permitted,没必要以1.0的概率只选一个action。

知道value iteration:

It can be written as a particularly simple backup operation that combines the policy improvement and truncated policy evaluation steps:

value iteration is obtained simply by turning the Bellman optimality equation into an update rule。it requires the maximum to be taken over all actions,正是这个maximum operation,才将policy improvement隐式地省略了。

Asynchronous DP:in-place update、更新顺序无要求、

asynchronous DP methods are often preferred

To converge correctly, however, an asynchronous algorithm must continue to backup the values of all the states(所有state都要访问到): it can’t ignore any state after some point in the computation


DP相对七天方法,效率还是不错的:

DP may not be practical for very large problems, but compared with other methods(direct search in policy space 、linear programming) for solving MDPs, DP methods are actually quite efficient

Large state sets do create difficulties, but these are inherent difficulties of the problem, not of DP as a solution method. 


Full backups are closely related to Bellman equations: they are little more than these equations turned into assignment statements. Just as there are four primary value functions (vπ, v∗, qπ, and q∗), there are four corresponding Bellman equations and four corresponding full backups.
All of them update estimates of the values of states based on estimates of the values of successor states. That is, they update estimates on the basis of other estimates. We call this general idea bootstrapping.




下面是silver课程《Lecture 3,Planning by Dynamic Programming》我觉得应该知道的内容:


注意,这一章讲的内容都是model-based的, 即需要知道π(a|s)、P(s'|s,a)、R(s'|s, a);model based问题和full RL真正要解决的问题有些差别。另外,model- based方法往往称为planning,和( reinforcement) learning区别。

5:prediction和control,之前也提到过。
7-8:知道policy evaluation是用来求解Vπ的,基于Bellman expectation equation。
9-11:policy evaluation、policy improvement的过程
12-13:知道policy iteration是用来求解V*的,policy iteration =  iterative policy evaluation + greedy policy improvement,想一下iterative(很简单, 别想复杂了,可以结合下面18页提出的问题)。
16-17:为什么policy improvement能够不断逼近V*,了解一下即可。
因此是model-based方法
18: Modified Policy Iteration,想一下在policy improvement之前,policy evaluation有必要converge到Vπ吗? 答案是没必要,K=3好理解,那么“e- convergence of value function”是什么意思?结合后面 value iteration的内容,想一下为什么K=1的时候,就是value iteration了

23-24:知道value iteration是用来求解π*,基于Bellman optimality equation。
22:value iteration的过程(看能不能理解 value iteration是K=1的policy iteration,而且将policy improvement步骤“隐式地”执行了)。
26:synchronous DP总结。

27-31:三种Asynchronous DP,主要是为了提高更新效率, 在所有states都被无限多次访问的情况下,保证收敛到V*; 其中31页的方法,访问到哪个state s,就只更新该state s的V(s),注意和33页提到的方法区别(33页方法是model-free的,是full RL考虑的问题);其中30页基于Bellman error(TD-error)的Prioritised Sweeping(Prioritised  state selection)很有用,能够加快收敛,在你到学校之后可能会进一步接触

35:知道收敛性由 contraction mapping theorem保证就好,知道有这个theorem即可。

### 回答1: 《强化学习导论》(Reinforcement Learning: An Introduction)是Richard S. Sutton和Andrew G. Barto合作编写的一本经典教材,是强化学习领域的一本重要参考书。该书系统地介绍了强化学习的基本概念、算法和应用。 这本书分为三个部分。第一部分概述了强化学习的基本概念和问题,介绍了强化学习的基本元素:智能体、环境、状态、动作、奖励等,并讨论了不同类型的强化学习问题。第二部分重点介绍了标准强化学习问题的解决方法,包括动态规划、蒙特卡罗方法和时间差分学习等。通过这些方法,可以学习到如何最大化累积奖励来达到特定目标。第三部分则讨论了强化学习中的其他重要主题,如函数近似学习、策略梯度方法、探索与利用的平衡等。 这本书有几个显著的特点。首先,它以直观的例子和图解介绍了强化学习的基本概念,使得读者能够更容易地理解和掌握相关知识。其次,书中提供了大量的算法和伪代码,方便读者实际操作和实现。此外,书中还包含了丰富的练习题和案例研究,可以帮助读者巩固学习成果和应用知识。 《强化学习导论》被广泛应用于学术界和工业界,对于研究者、学生和工程师都具有重要的参考价值。它为读者提供了一个系统和全面的学习路径,帮助他们深入理解强化学习的原理和方法,并在实际问题中应用和发展强化学习技术。通过阅读《强化学习导论》,读者将能够了解强化学习的基本思想,熟悉常用的解决方法,并能够运用这些知识解决实际问题,为相关领域的研究和应用做出贡献。 ### 回答2: 《强化学习导论》(Reinforcement Learning: An Introduction)是一本经典的强化学习教材,由Richard S. Sutton和Andrew G. Barto合著。 该书的主要目的是介绍强化学习的基本概念、方法和算法。强化学习是一种机器学习的分支,其中智能体通过与环境的交互来学习最佳行动策略。与传统的监督学习和无监督学习不同,强化学习的训练过程主要基于奖励信号的反馈。 《强化学习导论》的内容涵盖了强化学习的基础知识和重要概念。首先,书中介绍了马尔可夫决策过程(Markov Decision Process,MDP)作为强化学习问题的数学框架。然后详细介绍了值函数和策略的概念,以及如何通过值函数和策略来指导智能体的学习和决策过程。 该书还介绍了各种强化学习方法,如蒙特卡罗方法、时序差分学习和Q-learning等。这些方法用于解决基于模型(model-based)和非基于模型(model-free)的强化学习问题。每种方法的优点、局限性和适用场景都有详细阐述。 此外,《强化学习导论》还提供了大量的实例和案例研究,以帮助读者加深对强化学习理论的理解。书中还包含了许多练习题和算法伪代码,读者可以通过实践来巩固所学的知识。 总之,《强化学习导论》是一本系统全面介绍强化学习理论和方法的经典教材。它不仅适合作为强化学习领域的入门读物,也适合作为学术界和工业界从业人员的参考书籍。 ### 回答3: 《强化学习:一种介绍》(Reinforcement Learning: An Introduction)是由Richard S. Sutton和Andrew G. Barto合著的一本权威教材,详细介绍了强化学习的原理和应用。 该书首先从强化学习的基本概念入手,解释了强化学习与其他机器学习方法的区别。强化学习是一种学习代理如何通过与环境的交互来最大化奖励的方法。与监督学习和无监督学习不同,强化学习的代理在无人指导的情况下进行学习,通过不断试错来逐步提升策略的质量。 书中详细介绍了强化学习中的基本要素:环境、状态、动作和奖励。同时,书中还介绍了多种强化学习算法,包括动态规划、蒙特卡洛方法和时序差分学习等。这些算法分别适用于不同类型的问题和环境,读者可以根据具体情况选择合适的算法进行应用。 此外,书中还介绍了强化学习中的进一步概念,如函数逼近和价值函数等。函数逼近是解决大规模问题的关键技术,而价值函数则用于评估状态或策略的质量。通过这些进一步的概念,读者可以深入理解强化学习的工作原理,并应用于解决复杂实际问题。 《强化学习:一种介绍》是一本深入浅出、权威且易读的教材,适合学习强化学习的初学者和相关领域的研究人员。无论是对于计算机科学、人工智能还是机器学习感兴趣的读者,该书都提供了一个良好的入门指南,帮助读者理解并应用强化学习的基本原理和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值