强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS

强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS

  在基于表格型强化学习方法中,比较常见的方法有动态规划法、蒙特卡洛法,时序差分法,多步引导法等。其中动态规划法是一种基于模型的方法(Model-based),因为它的前提是必须要知道所有状态和动作以及奖励的分布;后面的几种方法则是基于采样的方法,试图让智能体通过与环境交互来获得经验,从经验中推出相关的策略。因此本节对相关内容进行一个简单的总结,并给出一些拓展方法。

  我们现在也已经学习了这些相关的方法,在此罗列出基于表格型学习的传送门:

文章内容地址
(一)概述强化学习的相关概念,包括基本元素,策略的分类,原理等点击复习
(二)贪心策略(ε-greedy & UCB)开发与探索,贪心策略,多臂赌博机点击复习
(三)有限马尔可夫决策与贝尔曼方程有限马尔科夫决策,贝尔曼方程点击复习
(四)基于表格型动态规划算法的强化学习动态规划,策略迭代,价值迭代点击复习
(五)蒙特卡洛采样方法蒙特卡洛方法, 同轨离轨策略,重要度采样点击复习
(六)时序差分方法单步时序差分,TD误差,SARSA,Q学习,期望SARSA,双学习点击复习
(七)n步自举法(多步引导法)n步时序差分点击复习

1、几种方法的对比

  强化学习的目标都是基于有限马尔可夫决策过程的假设,因此求解这个马尔可夫自然会有一系列的方法。例如动态规划中的贝尔曼方程,蒙特卡洛的同轨离轨策略等,这些方法都可以使用回溯图来表现出它们对状态、动作的描述:

在这里插入图片描述

  这张图可以很清晰的描述我们学过的几种方法。左上角表示的是时序差分法,时序差分法表示的是在某一个时刻的状态,通过观察执行某一个动作后转移到下一个时刻的状态所得到的即时收益与下一时刻状态的带折扣价值函数作为当前状态的估计值,也就是所谓的两次近似。值得注意的是,时序差分在这里通常表示为单步的,因此呈现出的就是一条单步的直线。在之前的学习中我们也知道,单步时序差分可能会造成最大化误差问题。当单步延长时,便是我们所说的多步引导(n步自举),如果n是整个一幕的长度,则表示的是蒙特卡洛,对应图中则是由左上到左下。蒙特卡洛则是从某一时刻开始,一直到结束时刻才能获得该时刻状态的实际收益。我们也知道一般对于非分幕式任务,或超长幕的任务来讲,蒙特卡洛也不一定实用。当时序差分中,增加宽度时,也就是说每次回溯不仅只是某一个动作,而是所有动作,则便是动态规划,仔细分析可知,动态规划就是对当前状态所有可能执行的动作以及下一时刻转移的状态的描述。动态规划是一种特殊的单步时序差分,在于其对每一个动作都进行了一次估计,如果是多步的话,就变成了深度搜索(穷举)。事实上,强化学习就是一个试错的过程,而穷举未免不是一种将所有经验都经历一遍的笨方法,强化学习只是使用策略机制来用少量的步骤近似真实的结果。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华师数据学院·王嘉宁

$感谢支持$

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值