强化学习（RLAI）读书笔记第八章表格方法的规划与学习

最新推荐文章于 2024-06-24 19:47:24 发布

无所知

最新推荐文章于 2024-06-24 19:47:24 发布

阅读量2.1k

点赞数 3

分类专栏：强化学习文章标签：强化学习 RLAI

本文链接：https://blog.csdn.net/qq_25037903/article/details/82469170

版权

本文深入探讨了强化学习中基于表格的规划与学习方法，阐述了模型和规划的概念，强调了两者在计算值函数上的共同点。文章通过Dyna-Q框架展示了规划、行为和学习的集成，探讨了模型错误时的应对策略，以及优先扫略等优化方法。此外，还讨论了预期更新与样本更新的权衡，轨迹采样和实时动态规划的优缺点，以及启发式搜索和蒙特卡洛树搜索在决策时间规划中的应用。

摘要由CSDN通过智能技术生成

第八章：Planning and Learning with Tabular Methods

本章为需要环境的model-based强化学习方法（如DP和启发式搜索）和不需要环境的model-free方法（比如MC和TD）提供一个统一的论述框架。基于模型的方法依赖规划（planning）而无模型的强化学习方法依赖学习（learning）。这两种方式有很多不同也有很多相似点。特别的是这两种方法都是以计算值函数为核心。更近一点的说两种方法都是靠未来的事件来计算当前值函数的更新目标。这一章的目标是把规划和学习的方法进行整合。

8.1 Models and Planning

模型（model）是指一个agent可以用来预测环境对于动作的反应的所有部分。有一些模型会产出所有可能性以及他们的概率，这种叫做分布模型（distribution model）。另一种是每次根据概率值采样产生一种可能性，这种叫做采样模型（sample model）。比如在动态规划中假设的模型就是一个分布模型。分布模型比采样模型强的地方在于分布模型也总是可以来产生采样。但是很多应用中获取采样模型会更方便。

模型可以用来模仿或仿真真实经验。给定一个初始状态和动作，采样模型可以产出一个可能的状态转移而分布模型可以产出所有可能的状态转移和他们发生的概率。而给定一个初始状态和策略，采样模型可以直接产出一个整个的episode而分布模型可以产出所有可能的episode以及他们发生的概率。所有的例子中模型都是用来模仿环境来产生仿真经验的。

规划（Planning）这个词在这里是指把模型作为输入通过与模型环境的交互产生或者改进一个策略的计算过程。在人工智能中有两种方式来进行规划。一种叫做状态空间规划（state-space planning），指的是从状态空间中搜索出一个最优的策略或者到达目标的最优路径，也就是本书包含的方法。另一种叫做计划空间规划（plan-space planning），也就是在计划空间中搜索最优。比如进化算法和partial-order planning。本书只考虑前一种。

本章要描述的统一框架是指所有的状态空间计划算法都共享一种架构，同样适用于本书讲到的学习算法。这个框架有两个基本点，一是搜有的状态空间规划都通过计算值函数作为一个优化策略的关键中间步骤，第二是通仿真经验来计算更新或者是backup操作。框架图如下：

动态规划算法就很适配这个框架。这一章将会介绍其他一些符合这个框架的状态空间搜索算法。学习算法和规划算法的核心都是通过backing-up更新操作来估计值函数。区别在于规划算法使用的是模型产生的仿真数据而学习算法是使用环境产生的真实数据。而他们都符合这个框架也就代表他们之间的很多算法可以直接通用。学习算法只需要使用经验数据作为输入，因此他们通常能够同时用在仿真数据和真实数据上。比如下面介绍了一个简单的基于一步表格Q-learning算法以及从采样模型产生的样本上的例子，这个方法叫做random-sample one-step tabular Q-planning，和一步表格Q-learning算法收敛条件相同。

除了这个框架之外，本章的第二个主题是规划算法在小的增量式步骤中的优势。这个优势使得规划算法能够在任何时间点中断或重定向，这是能够高效组合规划算法以及学习算法的关键要求。

8.2 Dyna: Integrated Planning, Acting, and Learning

因为规划是通过在线与环境交互的，一些有趣的情景会发生。和环境交互获得的新信息可能会改变模型从而与规划算法交流。决策和模型的学习都是非常消耗计算力的操作，因此需要将当前算力分配给这两个部分。首先来定义一个简单的整合了在线规划agent需要的所有函数的框架Dyna-Q。

在一个规划的agent里，真实经验至少有两个作用：一是用来改进环境模型，二是通过强化学习算法直接进行值函数的更新。前一个功能叫做model-learning，后一个叫做direct reinforcement learning（direct RL）。他们的关系如右图。真实经验通过模型来改进值函数或者策略的方式叫做indirect reinforcement learning。两种方法都有各自的优缺点。间接的方法能够更充分利用有限的真实经验因此在更短的迭代次数里能获得更好的策略。另一方面直接的方法更加简洁而且不会收到模型偏差的影响。Dyna-Q框架包含了右图中的所有部分，包括规划，行动和模型学习以及直接RL，而且他们是同时进行的。模型学习的方法是基于表的而且是确定性的模型。在规划算法中，算法只会采样那些之前以及经历过的状态动作对，因此不会有问题。

Dyna类型的整体框架如下图，Dyna-Q只是它的一个例子。中间的一列代表环境与智能体的交互从而产生真实的序列。左边的箭头表示的是从真实的经验中改进值函数和策略的直接RL，右边的箭头是基于模型的处理过程。从真实经验中建立的环境模型给出仿真的经验。search control代表的是为模型产生的仿真经验选择起始状态和动作的过程。最后，在仿真经验中直接应用学习算法，把仿真的经验当做真实经验使用从而进行规划。一般来说强化学习算法都可以应用在仿真经验和真实经验中。学习和规划的有很多的相同点，唯一的不同是经验的来源。