强化学习第二版（翻译）第二版前言

（由百度翻译修改而来，尽量保证逻辑通顺，建议以原文为主）

自本书第一版出版以来的二十年里，人工智能取得了巨大的进步，这在很大程度上得益于机器学习的进步，包括强化学习的进步。虽然现有的令人印象深刻的计算能力是这些进步的主要原因，但理论和算法的新发展也推动了这些力量的发展。面对这一进步，我们的1998本书的第二版早就应该出现了，我们终于在2013开始了这个项目。我们的第二版的目标与我们的第一个目标是相同的：提供一个清晰和简单的强化学习的关键思想和算法，让所有相关学科的读者都能理解。该版本仍然是一个导论，我们仍然专注于核心，在线学习算法。这个版本引入了一些在过去几年中变得重要的新话题，不仅如此为了更好的理解，我们扩大了主题的覆盖范围。但我们并没有试图对这一领域进行全面的报道，该领域在许多不同的方向发生了巨大变化，许多活跃的研究者做出了杰出的贡献。我们很抱歉其中的一部分都漏掉了。

正如在第一版中，我们选择不产生一个严格的正规的强化学习，或者用最一般的术语来表述它。然而，在第一版后，我们对一些主题的深入理解需要更多的数学来解释；我们更多在黑盒中使用数学方法而跳过不数学的部分。我们还使用了与前一版中使用的稍微不同的符号。在教学中，我们发现新的符号有助于解决混淆的一些常见问题。它强调随机变量之间的差异，用大写字母表示变量，用小写表示其实例。例如，状态，行动，和收益在时间t下分别表示为，S_t，A_t 和R_t，而他们可能的值可能表示为s,a,r。同时, 我们用小写字母表示价值函数（ value functions (e.g., v_π) ）且用大写表示他们的 tabular estimates (e.g., Q_t(s,a))。近似价值函数（（Approximate value functions）是随机参数下的确定性函数，从而也用小写字母表示（例如，v^(s,w_t)≈v_π(s),（太复杂了打不出来，看书）)。向量，如权重向量w_t（原θ_t）和特征向量x_t（原φ_t），是粗体小写的即使他们是随机变量。大写粗体为矩阵。在第一个版本我们用了特殊的符号P^a_ss′和R^a_ss'，方便对应转移概率和预期收益（reward，到底是什么意思）。该符号的一个缺点是，它仍然没有充分描述收益的动态变化，只给出他们的期望。另一个弱点是下标和上标过剩。在本版中我们使用p(s′,r|s,a)这样的显示表示体现已知当前状态和动作下个状态和收益的联合概率。所有符号的变化汇总在第十五页的表中。

第二版大幅度扩充，其顶级组织已被修改。在第一章介绍之后，第二版分为三个新部分。第一部分（第2章-第8章）尽可能多地学习强化学习without going beyond the tabular case（tabular case是什么意思？） for which exact solutions can be found。我们覆盖了tabular case的学习和规划方法，以及它们在N步方法和动态的统一。这部分出现了许多第二版的新增算法，包括UCB, Expected Sarsa, Double learning, tree-backup, Q(σ), RTDP, and MCTS。先做tabular case，尽可能地使其核心思想在最简单的环境中展开。书的第二部分（第9章至第13章）致力于把思想扩展到函数逼近（function approximation）。它加入了有关artificial neural networks, the fourier basis, LSTD, kernel-based methods, Gradient-TD and Emphatic-TD methods, average-reward methods, true online TD(λ), and policy-gradient methods的新的内容。第二版大大扩展了对off-policy learning手段，首次出现在第5章至第7章tabular case中，在第11章和第12章中进行了函数近似。另一个变化是，第二版讲n步自举的前向策略（在第七章中被更充分说明）从关注适合度轨迹的后项策略（现在在12章独立说明）中分离。本书第三部分就强化学习和心理学（14章）以及神经网络（15章）的关系增加了新的章节，以及最新的案例研究包括 Atari game playing, Watson, and AlphaGo (16章)。尽管如此，出于需要，我们只包括了现在的一小部分工作。我们的选择反映了我们对低成本的无模型方法的长远兴趣，这些方法可以很好地扩展到大型应用程序。最后一章讨论了强化学习对未来社会的影响。无论如何，第二版比第一版长60%。

这本书的目的是作为一个或两个学期的课本。一个学期的课程应覆盖前十章以形成良好的核心，它可以从其他章节中添加材料，获从其他课本添加材料如Bertsekas and Tsitsiklis (1996), Weiring and van Otterlo (2012), and Szepesv ́ari (2010),获根据口味挑选别的作品。根据学生的背景，一些在线监督学习的附加材料可能会有所帮助。The ideas of options and option models are a natural addition (Sutton, Precup and Singh, 1999).（不明白）。一个两学期的课程可以涵盖所有章节和补充材料。这本书还可以作为机器学习、人工智能或神经网络的更广泛课程的一部分。在这种情况下，可以只覆盖材料的一个子集。我们建议对第1章作简要概述，第2章至第2.4节，第3章，然后根据时间和兴趣选择其余章节的章节。第6章是本书最重要的部分。以机器学习或神经网络为中心的课程应包括第9章和第10章，而侧重于人工智能或计划的课程应包括第8章。在本书中，章节有难度，这本书的其余部分不必要的标记有∗。这些可以在第一读时省略，以后不会产生问题。一些运动也有∗表明他们更先进和理解本章的基本材料不是必需的。

大多数章节以“Bibliographical and Historical Remarks”结尾，我们在此赞许了章节中一些想法的来源，提供进一步的阅读材料和正在进行的研究，并介绍相关的历史背景。尽管我们试图使这些章节具有权威性和完整性，但毫无疑问，我们仍然有所缺漏。为此，我们再次表示歉意，我们欢迎修订和扩展纳入本书的电子版。

和第一个版本一样，这个版本向A. Harry Klopf致敬。正是他关于大脑和人工智能的思想，使我们开始了强化学习的漫长旅程。Harry是一位隶属于Avionics Directorate of the Air Force Office of Scientific Research (AFOSR) at Wright-Patterson Air Force Base, Ohio的资深科学家，对于神经网络和机器学习有浓厚兴趣。他反对过分用equilibrium-seeking processes, including homeostasis and error-correcting pattern classification methods，去解释自然智能，且将其作为机器智能的基础。他指出，试图最大化的系统（无论它是什么）与寻求平衡系统有着质的不同，他认为最大化系统是理解自然智能和人工智能的关键。Harry从AFOSR处获得资金推进了相关项目。该项目……

（。。。。后面都是贡献和感谢，看不动了）