强化学习系列(八):Planning and learning with Tabular Methods(规划和离散学习方法)

一、前言

本章是对前面七章的一个总结归纳,前七章中我们首先介绍马尔科夫决策过程(MDP),而后介绍了求解环境模型已知的MDP的方法(model-based)——动态规划方法(DP),启发式搜索也属于这类方法。最后针对环境模型未知(model free)的MDP,介绍了基于学习的强化学习方法——蒙特卡罗(MC)、时间差分(TD)等。前七章重点讨论了这两类方法的区别,但这两类方法也有以下共同点:

  • 方法的核心都是计算value function
  • 都是站在当前state,向前看,然后计算backup value
  • 用backup value来更新value function 的估计值

第七章,我们介绍了一种介于MC和TD之间的算法,本章旨在说明model-based和model-free方法之间的联系,并介绍他们的融合思路。

二、Model和Planning

首先我们进行一组概念辨析:

2.1 model

Model

什么是model? agent用model来预测环境对action的反应。根据包含信息的不同,可以分为 distribution model (分布模型)和 sample model(采样模型)。两者区别如下:

  • distribution model produce a description of all possibilities and their probabilities. Sample model produce just one of the possibilities and their probabilities.
  • 当给定一个state和一个action时,distribution model 可以生成所有可能的状态转移,而sample model只能给出一个可能的状态转移
  • 当给定一个state和Policy时,distribution model 可以获得所有可能的episode并得到他们出现的概率,但sample model只能给出一个episode

总之,distribution model 比 sample model包含更多信息,但现实中往往更容易获得sample model。简单来说,distribution model 包含了所有状态的转移概率,但sample model更像是管中窥豹,可见一斑。在DP中,我们用到的是distribution model,而在MC中我们用到的是sample model。

model 是对环境的一种表达方式,(不一定是真实或完全正确的),可以用来产生仿真经验(simulation experience)。


2.2 Planning

Planning

从Model中生成或提升Policy 的计算过程称为 Planning:
这里写图片描述

注意本文讨论的Planning都是state space Planning,这种Planning有两个特点:

  • 通过计算values function 来进行Policy 提升
  • 根据simulated experience来计算value function

总体过程可以用下图表示:
这里写图片描述

根据前七章的介绍,Planning(如DP) 和learning(如MC、TD)方法的核心都是用backing-up 更新公式计算value function 的估计值。区别在于Planning 所用经验是有模型生成的simulated exprience,而learning method使用的经验是由真实环境生成的real exprience。
但两者都满足上述state space Planning结构,这表示很多思想和算法可以相互借鉴,在应用中常常用learning 中value function 估计值的更新公式取代Planning中的value function 估计值的更新公式。例如,我们可以将Q learning 和 planning 结合,得到random-sample one-step tabular Q-planning 方法:
这里写图片描述

one-step tabular Q-learning最终会收敛到一个对应于真实环境的optimal Policy,而 random-sample one-step tabular Q-planning 则收敛到一个对应于model 的optimal Policy。

Q-planning表示Planning 结合learning 后可以单步更新,计算量显著减小,接下来将详细介绍Planning 和learning 的结合细节。

三、Dyna: Integrating Planning,Acting,and learning

进行在线规划(on-line planning), 与环境交互时,引发了一系列问题:交互过程中所获得的新信息可能会改变之前用于Planning 的 model,从而对Planning产生影响。

3.1 Dyna-Q

通常会根据当前或未来的 states 和 decisions来描述 Planning过程,当decision making(决策)和 model learning(模型学习,用来不断完善model,使得和真实环境更接近)都很消耗计算资源时,为了计算资源分配,常常将二者分开讨论,为了探索这一问题,本节提出了一种on-policy Planning agent的简单结构——Dyna-Q:
这里写图片描述
在Planning agent中,对所获得的真实环境信息来说,至少有两个主线任务:

  • model learning:将真实经验用于提高模型精确度,使得model更接近真实环境
  • direct RL(Reinforcement learning): 对真实经验数据运用强化学习来提升value function 和Policy

Dyna-Q 依次包括了Planning, acting, model learning, direct RL 等过程。其中,Planning方法为上文提到的random-sample one-step tabular Q-planning,direct RL方法为 one-step tabular Q-learning,model learning也是一种 table-based 方法,且假设环境是确定性的(即当前状态 St S t ,采取动作 At A t ,一定会转移到下一时刻状态 St+1

  • 8
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值