【强化学习】第三篇--蒙特卡洛方法

本文详细介绍了强化学习中的蒙特卡罗方法,包括起源、与动态规划的差异、首次和每次访问的概念及其策略评估和控制。重点讨论了首次访问与每次访问的策略,以及探索性初始化和无探索性初始化MC控制,强调了MC方法在无需环境模型情况下进行学习的优势。
摘要由CSDN通过智能技术生成

作者:王小草
笔记时间:2019年1月22日

1 蒙特卡罗法的起源

蒙特卡罗法的名字来源于世界著名的赌城蒙特卡罗。是用随机数来解决计算问题,即以概率为基础的方法。

套路是:生成随机样本–>试验多次–>总结经验

利用蒙特卡罗法计算圆周率π:
image_1d1pjdu1i1vka17h8apn1hp41eu89.png-61.7kB

利用蒙特卡罗法测量不规则图形的面积:
image_1d1pjj9jl472130d1l9e951t18m.png-22.4kB

2 蒙特卡罗法MC概述

2.1 MC与DP的差异

首先来看看马尔科夫决策过程的求解方法的结构,如下图,求解方法可以分成基于模型的和无模型的,基于模型的是使用动态规划法,其中又可以分为策略迭代,值迭代,策略搜索;无模型的可以分为两者:蒙特卡罗法时间差分法
image_1d1pjnqsn3ro1ee81jkutbd1ggr13.png-94.7kB

于是最大的区别就是,动态规划是需要基于已知的模型的,若模型已知就可以根据动态规划来求解,遗憾的是实际场景中很少有知道模型的。而在无模型的强化学习中,模型P是不知道的呢。

无模型的强化学习,要利用策略评估和策略改善的框架,必须采用其他方法对当前策略进行评估(值函数),于是只能回到值函数计算最原始的定义公式:
image_1d1pk4irm1np08r81p0iev79g11g.png-12.7kB

2.2 MC法概述

  • MC法直接根据"经验(experience)"中的"一幕幕(episodes)"进行学习

    • Episodes:在不清楚MDP状态转移概率及即时奖励的情况下,直接从经历完整的Episodes来学习状态价值。完整的Episodes不要求起始状态一定是某一个特定的状态,但是要求sgent最终进入环境的某一个终止状态。由于不知道状态转移矩阵,每一幕都需要经历到终点,从而在终点得到总回报。

    • Experience:即一组episodes的集合,其实就是训练样本;在完整的eposide中,用平均回报代替价值v。比如在某一状态下,遵循策略π,最终获得了总回报G,这就是一个样本;若有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报,也就是V(s).eposide越多,则结果越准确。

  • MC法是model-free,即不需要理解环境,不需要知道状态转移矩阵,但是需要知道reward哦~

  • MC法从完整的一幕中学习,而无需"自举",每一幕都必须到终点

  • MC的基本思想:value就是return的平均值

  • MC的目标:得到最优的状态-行为价值q*

    • 当模型已知时,只需要state value就可以确定一个规划,此时只需要选择会引向最好的reward的下一状态的action即可
    • 当模型未知时,获得"状态-行动值"比"状态值"更重要,因为仅仅有状态值不足以确定一个规则,需要明确得知道每个action value.
    • 因此蒙特卡罗的一个重要目标是评估q,即求在状态s下行为a的期望return
    • 在eposid中,一堆s,a若称为被visit过,是指在该eposide中,agent经过过s状态并选择执行了行为a

3 首次访问与每次访问

3.1 两个类别

在计算状态行为价值前先来明确2个方法:首次访问(first visit)和每次访问(

  • 10
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Q-learning和SARSA都属于时序差分强化学习方法,而不是蒙特卡洛强化学习方法。 时序差分强化学习是一种结合了动态规划和蒙特卡洛方法强化学习方法。它通过使用经验数据进行增量式的更新,同时利用了当前和未来的估计值来逼近最优值函数。 具体来说,Q-learning和SARSA都是基于Q值函数的时序差分强化学习。 1. Q-learning:Q-learning是一种基于动态规划的无模型强化学习。它使用了时序差分(TD)方法,通过不断迭代更新Q值函数的估计值,使其逼近最优的Q值。Q-learning算通过将当前状态和动作的估计值与下一个状态和动作的最大估计值相结合,来更新Q值函数的估计值。 2. SARSA:SARSA是一种基于时序差分的强化学习,也是一种模型-free的强化学习。SARSA算使用了时序差分的方法,通过不断迭代更新Q值函数的估计值。与Q-learning不同的是,SARSA算采用了一个策略(Policy)来决定下一个动作,并在更新Q值时使用下一个动作的估计值。 时序差分强化学习方法蒙特卡洛强化学习方法相比,具有更高的效率和更好的适应性。它可以在每个时间步骤中进行更新,不需要等到任务结束后才进行更新,从而更快地收敛到最优策略。而蒙特卡洛强化学习方法则需要等到任务结束后才能获取完整的回报信息,进行全局更新。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值