强化学习系列（八）：Planning and learning with Tabular Methods（规划和离散学习方法）

最新推荐文章于 2023-12-06 16:39:34 发布

LagrangeSK

最新推荐文章于 2023-12-06 16:39:34 发布

阅读量5.4k

点赞数 8

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/LagrangeSK/article/details/81556933

版权

一、前言

本章是对前面七章的一个总结归纳，前七章中我们首先介绍马尔科夫决策过程（MDP），而后介绍了求解环境模型已知的MDP的方法（model-based)——动态规划方法（DP)，启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP，介绍了基于学习的强化学习方法——蒙特卡罗（MC）、时间差分（TD）等。前七章重点讨论了这两类方法的区别，但这两类方法也有以下共同点：

方法的核心都是计算value function
都是站在当前state，向前看，然后计算backup value
用backup value来更新value function 的估计值

在第七章，我们介绍了一种介于MC和TD之间的算法，本章旨在说明model-based和model-free方法之间的联系，并介绍他们的融合思路。

二、Model和Planning

首先我们进行一组概念辨析：

2.1 model

Model

什么是model? agent用model来预测环境对action的反应。根据包含信息的不同，可以分为 distribution model （分布模型）和 sample model（采样模型）。两者区别如下：

distribution model produce a description of all possibilities and their probabilities. Sample model produce just one of the possibilities and their probabilities.
当给定一个state和一个action时，distribution model 可以生成所有可能的状态转移，而sample model只能给出一个可能的状态转移
当给定一个state和Policy时，distribution model 可以获得所有可能的episode并得到他们出现的概率，但sample model只能给出一个episode

总之，distribution model 比 sample model包含更多信息，但现实中往往更容易获得sample model。简单来说，distribution model 包含了所有状态的转移概率，但sample model更像是管中窥豹，可见一斑。在DP中，我们用到的是distribution model，而在MC中我们用到的是sample model。

model 是对环境的一种表达方式，（不一定是真实或完全正确的），可以用来产生仿真经验（simulation experience）。

2.2 Planning

Planning

从Model中生成或提升Policy 的计算过程称为 Planning：
这里写图片描述

注意本文讨论的Planning都是state space Planning，这种Planning有两个特点：

通过计算values function 来进行Policy 提升
根据simulated experience来计算value function

总体过程可以用下图表示：
这里写图片描述

根据前七章的介绍，Planning（如DP）和learning（如MC、TD）方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated exprience，而learning method使用的经验是由真实环境生成的real exprience。
但两者都满足上述state space Planning结构，这表示很多思想和算法可以相互借鉴，在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如，我们可以将Q learning 和 planning 结合，得到random-sample one-step tabular Q-planning 方法：
这里写图片描述

one-step tabular Q-learning最终会收敛到一个对应于真实环境的optimal Policy，而 random-sample one-step tabular Q-planning 则收敛到一个对应于model 的optimal Policy。

Q-planning表示Planning 结合learning 后可以单步更新，计算量显著减小，接下来将详细介绍Planning 和learning 的结合细节。

三、Dyna： Integrating Planning，Acting，and learning

进行在线规划（on-line planning), 与环境交互时，引发了一系列问题：交互过程中所获得的新信息可能会改变之前用于Planning 的 model，从而对Planning产生影响。

3.1 Dyna-Q

通常会根据当前或未来的 states 和 decisions来描述 Planning过程，当decision making（决策）和 model learning（模型学习，用来不断完善model，使得和真实环境更接近）都很消耗计算资源时，为了计算资源分配，常常将二者分开讨论，为了探索这一问题，本节提出了一种on-policy Planning agent的简单结构——Dyna-Q:
这里写图片描述
在Planning agent中，对所获得的真实环境信息来说，至少有两个主线任务：

model learning：将真实经验用于提高模型精确度，使得model更接近真实环境
direct RL(Reinforcement learning): 对真实经验数据运用强化学习来提升value function 和Policy

Dyna-Q 依次包括了Planning, acting, model learning, direct RL 等过程。其中，Planning方法为上文提到的random-sample one-step tabular Q-planning，direct RL方法为 one-step tabular Q-learning，model learning也是一种 table-based 方法，且假设环境是确定性的（即当前状态 $S_t$ ，采取动作 $A_t$ ，一定会转移到下一时刻状态 St+1

最低0.47元/天解锁文章

LagrangeSK

关注

8
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
强化学习系列（八）：Planning and learning with Tabular Methods（规划和离散学习方法）

一、前言本章是对前面七章的一个总结归纳，前七章中我们首先介绍马尔科夫决策过程（MDP），而后介绍了求解环境模型已知的MDP的方法（model-based)——动态规划方法（DP)，启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP，介绍了基于学习的强化学习方法——蒙特卡罗（MC）、时间差分（TD）等。前七章重点讨论了这两类方法的区别，但这两类方法也有以下共同点：...
复制链接

扫一扫

专栏目录