21.在线与离线MC强化学习

aganim

已于 2024-02-06 00:09:29 修改

阅读量1.4k

点赞数 34

分类专栏：我的强化学习笔记文章标签：算法强化学习蒙特卡洛

于 2024-01-14 14:49:50 首次发布

本文链接：https://blog.csdn.net/caijungan/article/details/135582887

版权

我的强化学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

1. 什么是在线MC强化学习
- 1.1 简介
- 1.2 在线MC强化学习算法
2. 什么是离线MC强化学习
3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

1.1 简介

在线强化学习（on-policy MC RL），是指：智能体在策略评估时为获取完整轨迹所采用的采样策略 $\pi_{sample}(a|s)$ ，与策略控制时要改进的策略 $\pi(a|s)$ 都是同一个策略,即： $\pi=\pi_{sample}$ 。

简而言之：所谓在线，就是在对一个初始策略评估的同时，利用 $\epsilon-$ 贪心算法对它进行及时改进。

1.2 在线MC强化学习算法

$\begin{align*} &\bold{输入}：\\ &\qquad 环境对象E，具有如下方法：\\ &\qquad\qquad reset：返回初始状态\\ &\qquad\qquad step：输入为行为a，输出为[s,s',r,terminated],\\ &\qquad\qquad\quad 其中s为当前状态，s'为下一个状态，\\ &\qquad\qquad\quad r为当前状态下执行行为a获得的立即回报，\\ &\qquad\qquad\quad terminated为true，表示s'为终止状态，为false，\\ &\qquad\qquad\quad 表示s'为非终止状态。\\ &\qquad 状态空间S=[s_1,s_2,\cdots,s_{ns}]\\ &\qquad 行为空间A=[a_1,a_2,\cdots,a_{na}]\\ &\qquad 行为值函数Q=0：ns\times na 矩阵，Q(i,j)表示Q(s_i,a_j)\\ &\qquad \pi=贪心策略,\pi[i,k]表示\pi(a_k|s_i)\\ &\bold{处理过程}：\\ &变量k=0\\ &while(k<m)\{\\ &\qquad 利用E的方法，基于策略\pi，产生一条完整轨迹:\\ &\qquad \quad [(s_{k,0},a_{k,0},r_{k,1}),(s_{k,1},a_{k,1},r_{k,2})，\cdots,(s_{k,n_T},a_{k,n_T},r_{k,n_T+1})]\\ &\qquad i=0\\ &\qquad while(i<n_T)\{\\ &\qquad\qquad 找到(s_{k,i},a_{k,i})在Q中的状态行为索引号(j,m)\\ &\qquad\qquad G=\sum_{n=i}^{n_T-1}\gamma^{i-n}r_{k,n}\\ &\qquad\qquad Q[j,m]\leftarrow Q[j,m]+\alpha(G-Q[j,m])\\ &\qquad\qquad i\leftarrow i+1\\ &\qquad\}\\ &\qquad j=0\\ &\qquad while(j<ns)\{\\ &\qquad\qquad 求Q[j,:]的最大值索引号m\\ &\qquad\qquad \pi[j,m]\leftarrow 1-\varepsilon+\frac{\varepsilon}{na}\\ &\qquad\qquad \forall n\ne m,\pi[j,n]=\frac{\varepsilon}{na}\\ &\qquad\qquad j\leftarrow j+1\\ &\qquad\}\\ &\qquad k\leftarrow k+1\\ &\}\\ &输出\pi \end{align*}$

2. 什么是离线MC强化学习

所在离线强化学习（off-policy MC RL），是指：智能体在策略评估时为获取完整轨迹所采用的采样策略 $\pi_{sample}(a|s)$ ，与策略控制时要改进的策略 $\pi(a|s)$ 不是同一个策略,即： $\pi\ne\pi_{sample}$ 。

3. 在线MC强化学习有何缺点

所学到的策略可能不适合作为最终的策略使用。
- 为什么？
  - 因为它引入的 $\epsilon-$ 贪心算法虽然确保了完整轨迹覆盖状态的多样性，但却以牺牲较快找到最优策略为代价，它总是小心翼翼，认为最优行为有可能存在于依赖经验确定的最优行为之外；
  - 它没有考虑这一常识：随着轨迹覆盖了更多的状态和行为，随着这些状态行为对出现次数的增多，依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
  - 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略，而这样的策略能够帮助自己更快地优化最终所要采取的策略，就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点，人们已经发展出了离线强化学习算法，它可以进一步细分为