离线强化学习(Offline RL)系列4:(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析

[更新记录]

文章信息:Samin Yeasar Arnob, Riashat Islam, Doina Precup: “Importance of Empirical Sample Complexity Analysis for Offline Reinforcement Learning”, 2021; arXiv:2112.15578.

本文是由McGill和DeepMind合作,Samin Yeasar Arnob第一作者提出,文章发表在NeuraIPS2021 顶会workshop中, 是一篇关于offline RL数据样本复杂性相关的文章。

摘要:本文首先解释了样本复杂性的基本概念,并就其在监督学习中的应用进行阐述,其次推理了强化学习中样本数的复杂度,最后就论文中通过样本复杂度对函数的过拟合影响等进行分析总结。

1. Offline RL遇到的两个挑战

offline RL须解决由于缺乏主动探索而导致的关键问题,这部分属于老生常谈了

1.1 distribution shift

在大多数情况下,历史数据是由与最优行为策略不同的某种行为策略生成的。因此,离线RL的一个关键挑战来自数据的distribution shift:如何利用过去的数据发挥最大的效果,即使由目标策略引起的分布与我们所学习的策略不同?

1.2 limited data coverage

理想情况下,如果数据集为每个状态操作对包含足够多的数据样本,那么就有希望同时学习每个策略的性能。然而,这种统一的覆盖要求往往不仅是不现实的(因为我们不能再改变过去的数据),而且也是不必要的(因为我们可能只对确定一个单一的最优政策感兴趣)。实际问题就是,在诸如机器人,无人驾驶等实际的环境中也不可能收集到全部的数据集,所以很难覆盖全部,其实在先前的博客离线强化学习(Offline RL)系列4:(数据集)Offline数据集特征及对离线强化学习算法的影响中已经说过,即:SACo(Relative State-Action Coverage, 状态-动作对覆盖范围) 指标问题。

这里引用Gen Li的一句话, 抛出问题:

Can we develop an offline RL algorithm that achieves near-optimal sample complexity without burn-in cost? If so, can we accomplish this goal by means of a simple algorithm without resorting to sophisticated schemes like variance reduction?

在这里,我们假设可以访问一个offline或者是batch数据集(或历史数据集) D D D ,它包含一个由 k k k 个独立的样本轨迹 π b = { π h b } 1 ≤ h ≤ H \pi^{b}=\left\{\pi_{h}^{b}\right\} 1 \leq h \leq H πb={ πhb}1hH 。更具体地说,第 k k k 个样本轨迹由一个数据序列组成

( s 1 k , a 1 k , s 2 k , a 2 k , … , s H k , a H k , s H + 1 k ) \left(s_{1}^{k}, a_{1}^{k}, s_{2}^{k}, a_{2}^{k}, \ldots, s_{H}^{k}, a_{H}^{k}, s_{H+1}^{k}\right) (s1k

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@RichardWang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值