离线强化学习(Offline RL)系列4：(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析

置顶

@RichardWang

已于 2022-04-20 22:37:38 修改

阅读量3.7k

点赞数 5

分类专栏：离线强化学习系列博客文章标签：离线强化学习 Offline RL 样本复杂度 sample-complex OfflineRL数据集

于 2022-04-20 22:35:09 首次发布

本文链接：https://blog.csdn.net/gsww404/article/details/124309333

版权

[更新记录]

文章信息：Samin Yeasar Arnob, Riashat Islam, Doina Precup: “Importance of Empirical Sample Complexity Analysis for Offline Reinforcement Learning”, 2021; arXiv:2112.15578.

本文是由McGill和DeepMind合作，Samin Yeasar Arnob第一作者提出，文章发表在NeuraIPS2021 顶会workshop中，是一篇关于offline RL数据样本复杂性相关的文章。

摘要：本文首先解释了样本复杂性的基本概念，并就其在监督学习中的应用进行阐述，其次推理了强化学习中样本数的复杂度，最后就论文中通过样本复杂度对函数的过拟合影响等进行分析总结。

1. Offline RL遇到的两个挑战

offline RL须解决由于缺乏主动探索而导致的关键问题，这部分属于老生常谈了

1.1 distribution shift

在大多数情况下，历史数据是由与最优行为策略不同的某种行为策略生成的。因此，离线RL的一个关键挑战来自数据的distribution shift：如何利用过去的数据发挥最大的效果，即使由目标策略引起的分布与我们所学习的策略不同？

1.2 limited data coverage

理想情况下，如果数据集为每个状态操作对包含足够多的数据样本，那么就有希望同时学习每个策略的性能。然而，这种统一的覆盖要求往往不仅是不现实的（因为我们不能再改变过去的数据），而且也是不必要的（因为我们可能只对确定一个单一的最优政策感兴趣）。实际问题就是，在诸如机器人，无人驾驶等实际的环境中也不可能收集到全部的数据集，所以很难覆盖全部，其实在先前的博客离线强化学习(Offline RL)系列4：(数据集)Offline数据集特征及对离线强化学习算法的影响中已经说过，即：SACo(Relative State-Action Coverage, 状态-动作对覆盖范围) 指标问题。

这里引用Gen Li的一句话，抛出问题：

Can we develop an offline RL algorithm that achieves near-optimal sample complexity without burn-in cost? If so, can we accomplish this goal by means of a simple algorithm without resorting to sophisticated schemes like variance reduction?

在这里，我们假设可以访问一个offline或者是batch数据集（或历史数据集） $D$ ，它包含一个由 $k$ 个独立的样本轨迹 $\pi^{b}=\left\{\pi_{h}^{b}\right\} 1 \leq h \leq H$ 。更具体地说，第 $k$ 个样本轨迹由一个数据序列组成