论文链接:https://openreview.net/pdf?id=B1oK8aoxe
1. 引言
近期,深度强化学习取得了许多令人印象深刻的结果,但这些深度强化学习算法一般都是采用单纯探索策略,如 ε-贪婪算法或统一的高斯探索噪声,这些方法在奖励稀疏的任务中表现不佳。要想解决这些问题,可采用两种策略:
1. 设计动作的层次结构,这需要专业知识以及细致的手动工程。
2. 使用与领域无关的内在奖励来指导探索,然而,对于如何将一个任务的知识进行转化以解决其他任务尚不清楚,这可能会导致过高的样本复杂性。
本文作者提出了一个可以在预训练环境中学习一系列技能的通用框架,该框架可以通过在这些技能上训练高级策略再应用于下游项目。作者利用随机神经网络(SNN)与代理奖励(proxy reward)相结合来学习这些技能,这样的设计不需要太多与下游项目相关的知识。为了鼓励 SNN 策略的行为多样性,研究者在预训练阶段提出了一种基于互信息(MI)的信息理论正则器。
2. 问题描述
本论文作者通过一组时域有限的离散时间折扣马尔可夫决策过程(MDPs)M 指定了一组下游任务。目标是在整个过程中实现期望折扣回报的最大化。
为了解决这些问题,首先这些下游项目要满足一些结构性假设,这是确保泛化性能的最低要求。正如智能体空间的思想,状态空间可以分为两部分:智能体状态和休息状态,这两个状态间的相互作用是很弱的。在 M 中,智能体状态对 M 中的 MDP 都是一样的,所有的 MDP 都要共享相同的动作空间。
建立了一系列满足结构假设的任务后,目标是要最小化解决这些任务所需的全部样本的复杂性。之前的技术是利用解决前期任务收集到经验来帮助解决后面的任务,但这并不适用于奖励稀疏的任务。因而研究者提出了一个在预训练环境中学习有用技能的通用框架。
3.方法论
作者用 5 步过程描述了该方法。该方法利用了预训练任务的优势,而且是用最少的专业知识来构建,同时可以学得很多有用的技能来解决稀疏奖励的极具挑战的任务。
3.1 建立预训练环境
为了建立智能体学习可用于下游任务的有用技能的预训练环境,作者允许智能体在最小设置下自由地与环境进行交互。例如,对移动机器人来说,预训练环境会是一个宽敞的环境,机器人可以先在这个环境中学到必要的移动能力。
与在预训练环境中指定特定技能的目标不同,研究者使用鼓励局部最优解的代理收益作为唯一的奖励信号,来指导技能学习。再以移动机器人为例,在不限制移动方向的情