论文原文: https://offline-rl-neurips.github.io/2021/pdf/33.pdf
我们知道在强化学习中,不同的样本选择对算法的影响比较大,最典型的莫过于使用优先级经验回放(PER)技术提高算法对采样样本的选择效率,那么在完全依赖于采样样本学习的OfflineRL中,如何高效的从dataset中通过采样数据进行高效学习呢?
本文作者根据各种启发式优先级指标(6种指标)对比实验,指标侧重于离线学习设置的不同方面(包括temporal-difference error, n-step return, self-imitation learning objective, pseudo-count, uncertainty, and likelihood),结果表明(1)non-uniform sampling仍然是最有效的采样方式。(2)没有任何一个metric适合于所有场景。(3)仅通过改变采样方案来避免Offline中的bootstrapping error是不够的。
1、基础工作
1.1、在OffLine中现有的采样方面的工作有哪些?
- Optimal Sample Selection(OOS):是一种model-based RL (MBRL) approach方法,介绍了一种元学习算法,利用交叉熵搜索方法对基于树的拟合q迭代(FQI)选择最优样本的元学习算法
- Best-Action Imitation Learning:提出了在行为克隆中选择具有学习值函数的高性能样本
- Advantage-Weighted Regression(AWR):使用奖励加权回归来学习策略。
- Advantage-weighted Behavior Model (ABM):使用奖励加权回归来学习策略。
- Uncertainty Weighted Actor Critic (UWAC):采用dropout-uncertainty性估计方法,并利用估计的不确定性对样本进行重新加权。
然而,目前还不清楚在OfflineRL中首选哪一种样本选择策略,因此需要更多的研究,下面我们说说本论文提出的Non-uniform Sampling with Experience Replay方法
1.2、 关于PER算法的几种变体
一个值得注意的例子是优先体验回放(PER),其中采样某个transition( s t s_{t} st, a t a_{t} at, s t + 1 s_{t+1} st+1)的概率与绝对TD误差成正比。然而,哪个优先级度量是评估样本重要性的最优仍然是一个悬而未决的问题
关于优先级经验方法,大家可以参考我之前的博客深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现
这里作者提出了关于PER中使用绝对TD误差 ∣ δ ( i ) ∣ |\delta(i)| ∣δ(i)∣作为优先级度量,并对第 i i i次过渡进行采样的概率 p ( i ) p(i) p(i)为:
p ( i ) = p i α ∑ j p j α , p i = ∣ δ ( i ) ∣ + ϵ or p i = 1 rank ( i ) , p(i)=\frac{p_{i}^{\alpha}}{\sum_{j} p_{j}^{\alpha}}, \quad p_{i}=|\delta(i)|+\epsilon \quad \text { or } \quad p_{i}=\frac{1}{\operatorname{rank}(i)}, p(i)=