Chapter 5: 蒙特卡罗方法

本文详细介绍了蒙特卡罗方法在强化学习中的应用,包括蒙特卡罗预测和控制。重点讨论了首次访问和每次访问的蒙特卡罗方法,以及探索性开始的策略。此外,还涵盖了离策略预测的重要性采样方法和增量实现。文章指出,通过蒙特卡罗方法,可以逐步找到近似最优策略,即使在没有模型和有限样本的情况下。
摘要由CSDN通过智能技术生成


动态规划需要假设完全了解environment,但是蒙特卡罗方法不需要这个假设,而只需要experience ——样本序列的states,action 和rewards(来自与environment的 实际模拟交互)。
实际经验(actual experience): 不需要事先了解环境的动态,但仍然可以获得最佳行为
模拟经验(simulated experience): 虽然需要模型,但模型只需要生成sample transition,而不像DP需要所有可能转换的完整概率分布。

蒙特卡罗方法是基于average sample returns来解决强化学习问题,为了明确定义的return,蒙特卡罗方法只针对episodic tasks,即假设experience被分为episodes。因此,蒙特卡罗方法可以episode-to-episode增加,但不是step-by-step(online)。

蒙特卡罗方法对每个state-action pair取样和求平均return有点类似Chapter 2中的bandit methods。不同之处在于现在有多个状态,每个状态都像一个不同的bandit problem,而且不同的问题是相互关联的,因为在一个状态下采取行动后的return取决于​​同一episode中后来状态下采取的行动。
这是一个nonstationary problem,为了处理非平稳性,应用了Chapter 4 动态规划中的general policy iteration(GPI)的思想。然而,动态规划中是根据马尔可夫决策过程MDP的知识计算 value function,蒙特卡罗方法是通过MDP从sample returns 学习 value function。

5.1 Monte Carlo Prediction

我们首先考虑蒙特卡罗方法来学习给定策略的state-value function。根据经验估计它的一种方法就是求visit该state后观察到的return的平均值。观察到的return越多,平均值越向期望收敛。这个思想是所有蒙特卡罗方法的基础。

visit: 在一个episode中,每次遇到状态 s s s叫作a visit to s s s

first-visit MC method: 首次visit s s s 后的returns平均值
every-visit MC method: 所有visit s s s后的returns平均值。
本章主要关注first-visit MC method。

算法:First-visit MC prediction for estimating V ≈ v π V\approx v_\pi Vvπ

在这里插入图片描述

5.2 MC Estimation of Action Values

如果模型不可用,只估计state values 是不够的,必须明确估计每个action的value,即估计state-action values。蒙特卡罗方法的主要目标之一是估计 q ∗ q_* q

但是有一个困难存在:许多state-action pair 可能永远不会被visit。所以,估计state-action value需要确保不断探索。
方法1:exploring starts: 指定episode从某个state-action pair开始,并且每个pair都具有被选择作为开始的非零概率。
方法2:stochastic policies: 更加常见,只考虑stochastic policies,以非零概率选择每个状态中的所有动作。

虽然方法2更加常见,但是本章使用方法1来介绍整个MC 方法。

5.3 MC Control

本节考虑如何用蒙特卡罗估计来求近似最优策略。总体思路与Chapter 4 动态规划相同。
首先,考虑经典policy iteration 的MC 版本:交替执行policy evaluation与policy improvement。
在这里插入图片描述
假设:可以观察观察到无数个episode,且以exploring 开始。那么MC方法可以对任意 π k \pi_k πk精确计算出 q π k q_{\pi k} qπk,即我们有了aciton-value 函数 q q q

policy evaluation:
(贪婪算法)
在这里插入图片描述
policy improvement:
在这里插入图片描述
通过上述方式,MC方法仅通过sample episodes就可以找到最优策略。但是观察到无数个episodes和以exploring 开始这两个假设太强,后面会考虑去掉这两个假设。

算法:Monte Carlo ES (Exploring Starts) for estimating π ≈ π ∗ \pi\approx\pi_* ππ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值