【统计强化学习】表格类型方法

最新推荐文章于 2023-12-13 20:46:32 发布

Flower_For_Algernon

最新推荐文章于 2023-12-13 20:46:32 发布

阅读量295

点赞数

分类专栏：强化学习文章标签：统计强化学习

本文链接：https://blog.csdn.net/Flowers_for_Algernon/article/details/123275840

版权

本文介绍了无模型强化学习中的表格类型方法，重点讲解确定性等价方法，包括如何估计MDP模型、策略优化以及空间复杂度。此外，分析了确定性等价方法的误差界限，通过霍夫丁不等式和Simulation引理，推导出与真实最优策略的误差界限，并讨论了采样数与状态数无关的情况。

摘要由CSDN通过智能技术生成

本系列文章主要参考UIUC姜楠老师开设的cs542

本章主要介绍无模型下的表格类型方法，包括确定性等价（Certainty-equivalence）方法、以及常见的 Q-learning、SARSA 等基于值的方法。由于需要先估计环境模型再进行决策，所以本章还会基于确定性等价方法，分析估计过程中产生的误差。

表格类型方法

首先介绍确定性等价方法。该方法为 model-based 方法，

首先需要从现有数据中估计 MDP 模型，然后在假设模型为真的情况下进行策略优化。具体地，给定轨迹的数据集 $D=\{(s_1,a_1,r_1,s_2,...,s_{H+1})\}$ ，并将该轨迹拆分为 $H$ 个四元组： $s_1,a_1,r_1,s_2)$ 、 $s_2,a_2,r_2,s_3)$ 、…、 $s_H,a_H,r_H,s_{H+1})$ 。对于任意 $s\in\mathcal{S}$ ， $a\in\mathcal{A}$ ，令 $D_{s,a}$ 为所有四元组中第一个元素为 $s$ 且第二个元素为 $a$ 的四元组子集。令 $\bold{e}_{s'}$ 为 $|\mathcal{S}|$ 维的向量，且第 $s^{'}$ 个位置的元素为 1，其余的元素为 0。此时，估计的状态转移函数为：
$\widehat{P}(s,a) = \frac{1}{|D_{s,a}|} \sum_{(r,s') \in D_{s,a}} \bold{e}_{s'}$

估计的奖励函数为：
$\widehat{R}(s,a) = \frac{1}{|D_{s,a}|} \sum_{(r,s') \in D_{s,a}}r$

另外，为了能够较好地评估状态转移函数和奖励函数，数据集中对任意状态动作对至少要包含一次，相当于确定性等价方法需要将环境模型保存下来，因此空间复杂度为 $O(|\mathcal{S}|^2|\mathcal{A}|)$ 。另外，确定性等价方法需要先采集好数据之后才能开始训练。

与之相反，基于值的表格类型方法，比如 Q-learning 和 SARSA 的方法只需要保存 Q 函数表格，因此空间复杂度为 $O(|\mathcal{S}||\mathcal{A}|)$ ；并且基于值的方法能够以在线的方式执行。另外，下面还将说明确定性分析方法的样本效率更高（但随着缓存池等技术的使用，model-based 和 value-based 方法之间区别就不是那么明显了）。

确定性等价方法分析

下面从弱到强分析确定性等价 RL 方法的三个结论。为方便起见，假设每个状态动作对都采集固定次数。

首先，对确定性等价进行朴素分析，提出第一个界限。直观上，当采集到的样本数量 $n$ 足够大，那么就能评估出足够真实的环境模型 $\widehat{P} \approx P$ 以及 $\widehat{R} \approx R$ 。回顾上一章的霍夫丁不等式，存在至少 $1-\delta$ 的概率，使得：
$\max_{s,a,s'}|\widehat{P}(s'|s,a)-P(s'|s,a)| \le \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A} \times \mathcal{S}|}{\delta}} \\ \max_{s,a} |\widehat{R}(s,a)-R(s,a)| \le R_{\text{max}} \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A}|}{\delta}}$

在朴素分析阶段，为了简化问题，假设各个状态转移和各个状态下获得的奖励都是独立的互不影响的，因此可以将评估错误的概率 $\delta$ 平均分到评估状态转移函数和评估奖励函数两个事件中。对于状态转移函数，将 $\frac{\delta}{2}$ 平均分到评估各个三元组 $(s, a, s^{'})$ 事件中；而对于奖励函数，将 $\frac{\delta}{2}$ 平均分到评估各个状态动作对 $(s, a)$ 事件中。此时可将上面的状态转移函数误差界限转换为：
$\begin{aligned} \\ \max_{s,a} \parallel \widehat{P}(s,a) - P(s,a) \parallel_1 &\le \max_{s,a} |\mathcal{S}| \cdot \parallel \widehat{P}(s,a) - P(s,a) \parallel_\infty \\ &\le |\mathcal{S}| \cdot \sqrt{\frac{1}{2n} \log \frac{4|\mathcal{S} \times \mathcal{A} \times \mathcal{S}|}{\delta}} \end{aligned}$

其中，有 $\parallel x \parallel_1 = \sum_{i=1}^n |x_i| \le \sum_{i=1}^n \max_j|x_j| = n \parallel x \parallel_\infty$ 。注意 $\max_{s,a,s'}|\widehat{P}(s'|s,a)-P(s'|s,a)|$ 是指对每个三元组 $(s, a, s^{'})$ 的转移概率之间的差都有这个误差界限，而 $\max_{s,a} \parallel \widehat{P}(s,a) - P(s,a) \parallel_1$ 是指对于每个 $(s, a)$ 产生的下一个状态（共 $|\mathcal{S}|$ 个下一个状态）的转移分布之间的差都有这个误差界限。

为了求出根据评估的环境模型得到的最优策略 $\pi_{\widehat{M}}^*$ 与真实最优策略之间的界限。下面先介绍 Simulation 引理：如果 $\max_{s,a}|\widehat{R}(s,a)-R(s,a)|\le\epsilon_R$ 且 $\max_{s,a}\parallel\widehat{P}(s,a)-P(s,a)\parallel_1\le\epsilon_P$ ，则对于任意策略 $\pi$ ，有：
$\parallel V_{\widehat{M}}^\pi - V_M^\pi \parallel_\infty \le \frac{\epsilon_R}{1-\gamma} + \frac{\gamma\epsilon_PV_{\text{max}}}{2(1-\gamma)}$