基于表方法的规划和学习方法读书笔记
在这一章中我们从一种统一的视角结合了强化学习中有模型的方法和无模型的方法。基于模型的方法的主要部分是规划,无模型的方法主要依赖学习。这两类方法有共同的基础,首先都是依靠值函数的计算,再者这些方法都是基于未来状态然后靠反向传播来更新当前值函数。
8.1 模型和规划
agent可以根据环境的模型来预计某一动作的反应。有些模型是随机性的,这种情况下每一种反馈都有它发生的概率。
分布模型有所有可能性的概率分布。而采样模型是一种根据分布概率采样的一种可能选择。分布模型更精确,但是实际上采样模型比分布模型更容易得到。模型可以用来模拟环境或者产生模拟经验。
规划在这指的是模型是输入,输出一个模型或者改进一个模型。如下图所示。
根据我们的定义,在人工智能领域有两种不同的方法去规划。一是状态空间规划,它是从状态空间中搜索到最优策略。二是计划空间规划,计划空间规划是在规划的范围内的选择。但是由于第二种规划不适合在以随机决策问题为核心的强化学习问题,所以我们不再深入研究。
在本章中,我们统一观点的基础是,所有的状态空间规划方法都符合一个常见的结构,这个结构也在学习方法中展示过。有两个基本的思想:
- 所有的状态空间规划方法都用值函数作为改进策略的中间步骤。
- 它们都用基于模拟经验的步骤反向传播运算更新值函数。
除了动态规划外,我们认为之前讲到的其他不同的方法都满足这个结构,只是在更新值函数处不同。通过这个角度我们强调了规划方法和学习方法的关系。它们都是通过反向传播操作来更新值函数。区别是规划方法使用模拟的经验,学习方法用到了实际的经验。
这个共有的结构意味着许多思想和算法可以在规划方法和学习方法中相互转换。下图展示了基于一步Q-learning的规划方法的简单的例子。称为random sample One step tabular Q-learning。
除了规划方法和学习方法的统一视角,在这一章的另一个主题是微小步进。小的步进使得规划方法可以在小的损失下被打断,以便于高效的在规划方法中结合学习和行动。
8.2 Dyna:结合规划,行动和学习
在一个规划agent中,实际经验既可以通过直接强化学习方法来改进策略,也可以用来进行改进模型。第一种方法称为direct RL,后一种称为Model learning。不直接的方法充分利用了有限的经验,拥有更少的环境交互。Direct RL更简单也不被模型的偏差影响。直接和不直接方法的好坏问题以及他们问题被广泛地被讨论,在这里我们关注它们的相同点,以统一的视角看待。
在这里我们介绍Dyna-Q算法,该算法的框架如下
其中中间一列指的是环境与agent的交互,产生的实际经验既可以通过左边箭头通过direct RL更新来获得策略或者改进策略,也可以通过规划的方法(如上面所讲到的random sample one step Q-learning)来更新。其中策略是固定性的,而且