【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

最新推荐文章于 2023-05-04 13:01:40 发布

广告与算法

最新推荐文章于 2023-05-04 13:01:40 发布

阅读量3.2k

点赞数 2

分类专栏：强化学习强化学习笔记文章标签：强化学习

本文链接：https://blog.csdn.net/bigheadyushan/article/details/79470131

版权

强化学习同时被 2 个专栏收录

24 篇文章 4 订阅

订阅专栏

强化学习笔记

24 篇文章 11 订阅

订阅专栏

无模型

再解释一下什么是无模型？无模型就是状态转移函数，回报函数不知道的情况，不知道在 $(s, a)$ 的情况下，状态怎么转移，回报函数也不知道， $\pi (s_{t+1} | s_t, a_t)$ 的转移概率未知。
在基于模型的动态规划方法中是基于模型的，包括策略迭代法和值函数迭代法，可以统一到广义策略迭代法，即先进行策略评估（计算值函数），然后基于基函数做策略改善，这种思想同样适用于无模型的情况。

蒙特卡洛方法

在给定的策略 $\pi$ 的作用下，可以计算 ${\color{red}{累积回报}}$ $G_t$ ,
$G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1}$
状态值函数和状态-行为值函数的本质是期望。
${\color{red}{状态值函数}}$ $\upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big]$
${\color{red}{状态-行为值函数}}$ $q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big]$ ，
在模型已知的情况下，可以通过模型计算期望。在无模型的情况下，可以通过经验平均来估计期望，常采用蒙特卡罗实验方法。基本的思路就是利用蒙特卡洛反复实验，得到实验数据，计算经验平均，在经验平均的基础上进行策略评估和改善。
$v_n(s)=\frac{1}{n} \sum_{j=0}^n G_j(s)$ ， $n$ 表示访问状态 $s$ 的次数
具体的操作方法有：第一次访问蒙特卡洛方法和每次访问蒙特卡洛方法，前者估计的方差略小。
可以将上式改成递推的形式
$v_n(s)=v_{n-1}(s)+\frac{1}{n}(G_n(s)-V_{n-1})$

基于蒙特卡洛的强化学习方法

所有状态初始化，值函数初始化
反复随机选择一个状态，以一个策略（行动策略）选择该状态下的一个行为，得到反馈序列，对在实验中出现的每一个状态-行为对以及附属的回报，计算对应的状态-行为值函数。
进行策略评估和改善（目标策略）

基于蒙特卡洛的强化学习方法（随机策略计算状态值函数）

见无模型的强化学习方法-蒙特卡罗算法编程实现

基于蒙特卡洛的强化学习方法（ $\varepsilon-greedy$ 策略计算状态行为值函数）

见无模型的强化学习方法-蒙特卡罗算法编程实现

同策略和异策略

如果行动策略和目标策略是相同的策略，称之为同策略；否则称之为异策略，异策略中的两个策略需要满足：行动策略包含或者覆盖目标策略。异策略可以保证充分的探索性。

参考书籍：

深入浅出强化学习原理入门

欢迎关注微信公众号：AITBOOK
在这里插入图片描述

广告与算法

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

【深入浅出强化学习原理入门学习笔记】4.无模型的强化学习方法-蒙特卡罗算法再解释一下什么是无模型？无模型就是状态转移函数，回报函数不知道的情况。在基于模型的动态规划方法中是基于模型的，包括策略迭代法和值函数迭代法，可以统一到广义策略迭代法，即先进行策略评估（计算值函数），然后基于基函数做策略改善。状态值函数和状态-行为值函数的本质是期望，之前动态规划的方法可以通过模型计算期望，在无模型...
复制链接

扫一扫