【论文笔记】Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning

文章介绍了在离线强化学习中处理多任务问题的新方法,通过技能正则化和任务分解,利用不同质量数据集的异构数据。通过学习共享技能并进行任务分解,使智能体能在潜在空间中实现任务的子任务化,提高了离线强化学习的性能。同时,利用高质量技能的数据增强策略缓解了离线数据集的局限性,增强了智能体的表现。
摘要由CSDN通过智能技术生成

【论文笔记】Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning

更多笔记(在耕):这里
本文开源代码:Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning

Abstract

  1. 研究背景:使用不同离线数据集的强化学习(RL)可以利用多个任务之间的关系和跨这些任务学习到的共同技能,从而使我们能够以数据驱动的方式有效地处理现实世界中的复杂问题。

  2. 研究问题:在离线强化学习中,只使用离线数据,与环境的联机交互受到限制,但很难实现多个任务的最优策略,特别是在任务的数据质量不同的情况下。

  3. 解决思路:基于技能的多任务强化学习技术 + 由不同品质的行为策略产生的异质数据集

    In this paper, we present a skill-based multi-task RL technique on heterogeneous datasets that are generated by behavior policies of different quality.

  4. 具体技术路线:

    • 为了有效地学习这些数据集之间可共享的知识,我们采用了一种任务分解方法,通过这种方法,共享技能被共同学习,并用作指导,以将任务重新构造为共享且可实现的子任务

      To learn the shareable knowledge across those datasets effectively, we employ a task decomposition method for which common skills are jointly learned and used as guidance to reformulate a task in shared and achievable subtasks.

    • 在这种联合学习中,我们使用Wasserstein自编码器WAE)来表示相同潜在空间中的技能和任务,并使用质量加权损失作为正则化项,以促使任务被分解为与高质量技能更一致的子任务。

      In this joint learning, we use Wasserstein auto-encoder (WAE) to represent both skills and tasks on the same latent space and use the quality-weighted loss as a regularization term to induce tasks to be decomposed into subtasks that are more consistent with high-quality skills than others.

    • 为了提高在潜在空间中学习的离线强化学习智能体的性能,我们还使用与每个任务相关的虚构轨迹来增强数据集,这些轨迹与高质量技能相关。

      To improve the performance of offline RL agents learned on the latent space, we also augment datasets with imaginary trajectories relevant to high-quality skills for each task.

  5. 实验设置:several robotic manipulation tasks and drone navigation tasks

  6. 实验结论:我们的多任务离线强化学习方法对不同质量的数据集的混合配置具有鲁棒性。它的表现优于其他最先进的算法。

1 Introduction

在强化学习领域,离线强化学习研究最近得到了广泛的关注,大量研究表明,利用之前收集的经验和轨迹数据,采用数据驱动的学习机制对各种顺序决策问题是有效的。

Recently, a data sharing method for multi-task learning was introduced to address the issue of limited data for real-world control applications. Yet, multi-task RL has not been fully investigated in offline settings.

最近,引入了一种数据共享方法,以解决现实世界控制应用中存在的有限数据问题。这种方法适用于多任务学习,但是在离线背景下,数据共享式的多任务强化学习尚未得到充分的研究。


In the offline RL context, we present a novel multi-task model by which a single policy for multiple tasks can be data-efficiently achieved and its learning procedure is robust to heterogeneous datasets of different quality.

在离线强化学习的背景下,我们提出了一种新颖的多任务模型,通过该模型可以高效地使用数据实现多个任务的单一策略,并且其学习过程对不同质量的异构数据集具有鲁棒性。

**离线强化学习对存在质量差异的数据应具有什么要求?为什么?**在离线强化学习中,不允许与环境进行交互,并且在数据收集过程中可能涉及任意或低性能的行为策略,因此在不同质量的数据上保持学习的鲁棒性非常重要。

In offline RL where interaction with the environment is not allowed and arbitrary or low-performance behavior policies might be involved in data collection, it is important to maintain the robustness in learning on different-quality data.


To this end, we devise a joint learning mechanism of skill (short-term action sequences from the datasets) and task representation, which enables the task decomposition into achievable subtasks via quality-aware skill regularization. The model ensures the robustness of learned policies upon the mixed configurations of different-quality datasets.

作者开发了一个技能(来自数据集中的短动作序列)和任务表征的共同学习的机制,这个学习机制可以通过质量注意力的技能正则化将任务解耦成可实现的子任务。该模型保证了学习策略在不同质量数据集的混合配置下的鲁棒性。

We also employ data augmentation based on high-quality skills, thus creating plausible trajectories and alleviating the limited quality and scale issues of offline datasets, which is aiming at creating imaginary trajectories that are likely to be generated by expert policies.

我们还采用基于高质量技能的数据增强方法,从而创建可信的轨迹,并缓解离线数据集的有限质量和规模问题,旨在创建可能由专家策略生成的虚构轨迹。

2 Overall Approach

2.1 Preliminary

Offline RL

离线强化学习旨在最大化累积折扣奖励 J ( π ) J(\pi) J(π) ,采用与传统强化学习相同的公式;然而,与之不同的是,离线强化学习假定仅使用先前收集的轨迹的静态数据集 D = { ( s t , a t , r t , s t + 1 ) } D = \{(s_t, a_t, r_t, s_{t+1})\} D={(st,at,rt,st+1)} 进行训练。它几乎不考虑与环境的交互。

Offline RL algorithms can increase the usability of previously collected data in the domain of making sequential decisions where temporal credit assignment with long time horizons is important.

离线强化学习算法可以增加先前收集的数据在进行序贯决策的领域中的可用性,其中长时间范围内的时间信用分配非常重要。

Multi-task RL

Multi-task RL considers more than a single task when achieving the optimal policy π ∗ \pi^{\ast} π . It is normally formulated as a family of MDPs T i = ( s i , a i , r i , s n e x t i ) i \mathbf{T}_{i}=(s^{i}, a^{i}, r^{i}, s_{next}^{i})_{i} Ti=(si,ai,ri,snexti)i where each individual task T i \mathbf{T}_{i} Ti is associated with its respective MDP and it is sampled according to a task distribution p ( T ) p(\mathbf{T}) p(T) .

Hidden Parameter MDP

为了表示多任务环境中与每个任务的马尔可夫属性相关的隐含时间动态特性,我们引入了一个隐藏潜在变量 v t v_{t} vt
R ( s t , v t , a t ) : = R v t ( s t , a t ) P ( s t + 1 , v t + 1 ∣ a t , s t , v t + 1 ) : = P v t ( s t + 1 ∣ a t , s t ) R(s_t,v_t,a_t):=R_{v_{t}}(s_t,a_t) \\ P(s_{t+1},v_{t+1}|a_t,s_t,v_{t+1}):=P_{v_{t}}(s_{t+1}|a_t,s_t) R(st,vt,at):=Rvt(st,at)P(st+1,vt+1at,st,vt+1):=Pvt(st+1at,st)
实际状态空间扩展为 S × V S\times V S×V V V V 是潜在变量 v t v_{t} vt 的集合。

部分可观察MDP(POMDP),其被规定为元组 ( S × V , A , Ω , P V , R V , O , γ ) (S\times V,A,\Omega,P_{V},R_{V},O,\gamma) (S×V,A,Ω,PV,RV,O,γ)

其中 Ω = S \Omega = S Ω=S O ( s t , v t ) → s t O(s_t,v_t)\rightarrow s_t O(st,vt)st 表示观察空间和观察函数。

Comments 作者在这里引入潜在变量的原因:表示MDP属性相关的隐含时间动态特性,这个说法可以用于元强化学习;此外,作者在这里的多任务服从同一个分布和元强化学习也有相似之处。

2.2 Overall Approach For Multi-task Offline RL

这一部分主要是对离线强化学习的简述。

一般来说离线强化学习的训练目标如下,这个目标更倾向于减小探索问题。
arg ⁡ max ⁡ π   J D ( π ) − α ⋅ c ( π , π D ) \arg\max\limits_{\pi}\text{ }J_{\mathbf{D}}(\pi)-\alpha\cdot c(\pi,\pi_{\mathbf{D}}) argπmax JD(π)αc(π,πD)

  • J D ( π ) J_{\mathbf{D}}(\pi) JD(π) 是策略 π \pi π 在给定数据集 D \mathbf{D} D 下的最大平均累计奖励,而这个数据集 D \mathbf{D} D 是由策略 π D \pi_{\mathbf{D}} πD 生成的。
  • c ( ⋅ ) c(\cdot) c() 是一个正则化项目,用于减小策略 π \pi π 和策略 π D \pi_{\mathbf{D}} πD 之间的差异。避免策略 π \pi π 收敛在一个很奇怪的“点”。

With this regularization by the behavior policy, offline RL algorithms are often vulnerable to low-quality datasets. Overfitting problems can occur such that the maximum average return max ⁡ π J D ( π ) \max\limits_{π} J_{\mathbf{D}}(\pi) πmaxJD(π) is much lower than that of its respective true MDP M M M, when a low-performance or arbitrary policy is used for data generation.

作者指出了这样的不足之处:就是因为这个正则化项,导致智能体的学习目标一定要和生成的策略逼近,这就导致离线强化学习在策略差异比较大时生成的数据集,就会很脆弱。当使用低性能或任意策略进行数据生成时,过度拟合问题可能会发生,导致 M ^ \hat{M} M^ 的最大平均回报 max ⁡ π J D ( π ) \max\limits_{π} J_{\mathbf{D}}(\pi) πmaxJD(π) 远远低于其相应的真实MDP M M M


In multi-task offline RL, we reformulate a family of MDPs { T i } i \{T_{i}\}^{i} {Ti}i as a hidden parameter MDP in that multiple MDPs are combined into a single POMDP based on hidden parameters that specify temporal Markovian properties of the environment.

While the overfitting issue of offline RL can be alleviated by exploring the relation of multiple tasks and inducing the shareable knowledge from their datasets in a multi-task setting, it is not guaranteed that inferring the hidden parameters fully enables the well-structured representation of related tasks.

It is because the behavior policy heterogeneity and state-action pair disparity of tasks can prevent the sub-trajectories of common-knowledge tasks from being closely mapped on the latent space.

这段内容的信息量感觉很大,我们一句一句来解读~

  1. 在多任务离线强化学习中,作者将一族 MDP { T i } i \{T_{i}\}^{i} {Ti}i 重新构造成一个具有隐藏参数的 MDP 。能这样构造的原因是:多个 MDP 可以结合成一个部分可观的 POMDP ,这个 POMDP 里面的隐藏参数 hidden parameters 能够用来特指/特定化时间差分的马尔可夫性质。
  2. 虽然离线强化学习的过拟合问题,可以通过探索多任务之间的关系和提取数据集之间可共享的知识来避免/减轻;
    但是,作者推断出来的隐藏参数是否就是良好结构化的任务表征?这个不能被保证。
  3. 因为行为策略存在异质性,且动作状态对存在不一致性,这就导致具有共同知识的“部分轨迹”不能在同一个潜在空间上很紧密的映射出来。

1

  • 蓝色圆形表示任务嵌入,绿色圆形表示技能嵌入。

    机理:任务嵌入得到 z 1 z_{1} z1 变量,技能嵌入得到 b 1 b_{1} b1 变量。随后将 z 1 z_{1} z1 变量变成 z 1 ′ z_{1}^{\prime} z1 变量使之更靠近 b 1 b_{1} b1 变量。

  • (a) 部分:

    Sub-trajectories from static datasets are converted into skill embeddings and task embeddings on the same latent space, which together enable the decomposition of tasks into achievable subtasks.

    来自静态数据集的子轨迹被转变成技能嵌入 skill embeddings 和任务嵌入 task embeddings ,这两个嵌入都是在同一个浅层空间上,这样做能共同地把任务解耦合成可实现的子任务。

    The action sequence of the sub-trajectory τ 1 τ_{1} τ1 with large returns.

    作者是这样对“好的/优质的”技能嵌入 b 1 b_{1} b1 变量做定义:子轨迹 τ 1 τ_{1} τ1 中具有很大回报的动作序列。

    这样做的目的是什么?

    通过共同学习通用技能并通过质量注意力技能规范化(Quality-aware Skill Regularization)来适应子任务,使得能够在可达子任务的潜在空间中对单个任务进行分解和重构,从而实现更可行的表示。

  • (b) 部分:

    In (b), for training offline RL agents, imaginary trajectories similar to expert demonstrations are sampled from the latent space and added to the datasets.

    与专家轨迹类似的想象的轨迹从浅层空间中采样出来,加到了静态离线数据集中。

    这样做的目的是什么?提升模型的表现,这对于一些仅存在低质量的数据集很有效。

3 Task Decomposition with Quality-aware Skill Regularization

模型总述:

2

在图的右侧,红色箭头表示 L P R L_{PR} LPR ,它使得低质量的子轨迹在任务的先验分布内拉伸(从深粉红色到浅粉红色),蓝色箭头表示 L S R L_{SR} LSR ,它使得高质量的子轨迹在技能的分布周围收缩(从浅蓝色到深蓝色)。

3.1 Learning Skill Embeddings

为了将智能体的行为表示为潜在空间 Z \mathbf{Z} Z 中的向量,作者使用了自编码机制。

考虑到短期范围上的动作序列捕获了智能体对特定任务的行为,我们称之为潜在向量 b t b_t bt 技能嵌入。

编码器 q ϕ q_{\phi} qϕ 将状态动作对序列 d t = ( s , a ) t − n : t + n − 1 d_{t}=(s,a)_{t-n:t + n-1} dt=(s,a)tn:t+n1 作为输入,将其映射到潜在向量 b t ∈ Z b_{t} \in\mathbf{Z} btZ ,而解码器 p ϕ p_{\phi} pϕ 则从 b t b_{t} bt s t − n : t + n − 1 s_{t-n:t + n-1} stn:t+n1 的组合中重构出输入的动作序列 a t − n : t + n − 1 a_{t-n:t + n-1} atn:t+n1

For maintaining the learning stability on skill embeddings b t ∈ Z b_{t} \in\mathbf{Z} btZ , we use Wasserstein auto-encoder (WAE) with the maximum mean discrepancy (MMD)-based penalty and a prior distribution on b t b_t bt .

为了保持技能嵌入 b t ∈ Z b_{t} \in\mathbf{Z} btZ 的学习稳定性,我们使用了基于最大平均差异的惩罚项的沃瑟斯坦变分编码器,和 b t b_t bt 的先验分布。

3

{ b i ^ } i = 1 m ∼ P B \{\hat{b_{i}}\}_{i=1}^{m}\sim P_{B} {bi^}i=1mPB 是从一个技能嵌入分布的先验中采样得到; λ > 0 \lambda >0 λ>0 是基于先验分布的正则化超参数;

L P R L_{PR} LPR 用来限制技能嵌入。

4

m m m 表示采样得到的 { b , b ^ } \{b,\hat{b}\} {b,b^} 的大小, k : Z × Z → R k:\mathbf{Z}\times\mathbf{Z}\rightarrow\mathbf{R} k:Z×ZR 表示正项定义的核。

3.2 Skill-regularized Task Decomposition

  1. 我们将任务看成一些子任务的组合,这些子任务可以被建模成具有隐藏参数的 MDP 。

    We first view each task as a composition of subtasks which can be modeled as a hidden parameter MDP.

  2. 对于任务嵌入,我们使用基于沃瑟斯坦变分编码器的模型结构,与先前的技能嵌入的构成类似。

    For task embeddings, we then use the WAE-based model architecture similar to skill embeddings previously described.

  3. 对于 n n n 长度的状态转移的子轨迹 τ t = ( s t − n : t , a t − n − 1 : t − 1 , r t − n − 1 : t − 1 ) τ_{t} = (s_{t−n:t}, a_{t−n−1:t−1}, r_{t−n−1:t−1}) τt=(stn:t,atn1:t1,rtn1:t1)

    作者使用一个编码器 q θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\rightarrow z_t \in \mathbf{Z} qθ:τtztZ 来产生 Z \mathbf{Z} Z 空间下的任务嵌入;

    作者使用一个解码器 p θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \rightarrow (s_{t+1}, r_t) pθ:(st,at,zt)(st+1,rt) 来表达状态转移概率 P P P 和奖励函数 R R R

    For sub-trajectories τ t = ( s t − n : t , a t − n − 1 : t − 1 , r t − n − 1 : t − 1 ) τ_{t} = (s_{t−n:t}, a_{t−n−1:t−1}, r_{t−n−1:t−1}) τt=(stn:t,atn1:t1,rtn1:t1) of n n n-length transitions each, we have an encoder q θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\rightarrow z_t \in \mathbf{Z} qθ:τtztZ to yield task embeddings and a decoder p θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \rightarrow (s_{t+1}, r_t) pθ:(st,at,zt)(st+1,rt) to express the transition probability P P P and reward function R R R

    所以任务嵌入的训练目标是:(类似于一种 model-based 的方法)

    5

    这个是任务嵌入,他的状态、动作以及奖励的获得都会收到品质的影响。因此需要在此处增加正则化,也就是增加在这段状态转移带来的累计奖励。所以作者的 quality-aware 其实就是增加了前面的奖励正则化???

    6


作者给出了总的损失函数:

7

这使得编码器 q θ q_{θ} qθ 能够在多任务背景中,通过一系列子轨迹生成子任务级别的嵌入(或子任务嵌入)。特别地,每个任务都被表示为与一些具有大量回合收益的轨迹中学习到的高质量技能密切相关。通过更多地使用高质量技能进行任务无关的训练,这种任务分解减少了低质量数据的不良影响,并将任务分解为更可实现的子任务。

作者给出了伪代码。

8

一般来说先验分布设置成正态分布,更好计算更好采样。

基本过程就是:采样——算损失函数——梯度下降,循环然后结束。


接下来,作者提供 skill-regulization 效应的分析。

q q q p p p 为通过最小化 L S E L_{SE} LSE 中损失函数得到的技能编码器和解码器,类似于其他文献中将 p p p 视为环境的一部分。解码器 p p p 遵循 MDP M p = ( S , A = Z , P p , R p , γ ) M_p =(S,A = Z,P_p,R_p,\gamma) Mp=(S,A=Z,Pp,Rp,γ) ,其中高级(技能)动作 z t ∈ Z z_t \in \mathbf{Z} ztZ 被转换为直接与环境交互的低级(原始)动作 a t ∼ p ( ⋅ ∣ s t , z t ) a_t\sim p(\cdot|s_t,z_t) atp(st,zt)

Karl Pertsch, Youngwoon Lee, and Joseph J Lim. “Accelerating reinforcement learning with learned skill priors”. In: arXiv preprint: 2010.11944 (2020).

Taewook Nam et al. “Skill-based Meta-Reinforcement Learning”. In: Proceedings of 10th International Conference on Learning Representations (ICLR). 2022.

此外,假设 L T E L_{TE} LTE 中的子轨迹 τ \tau τ L S E L_{SE} LSE 中的状态-动作对序列 d d d 受限于当前状态,获得了针对 MDP M p M_p Mp 训练的高级策略 q θ q_θ qθ q q q 。由于 q θ q_θ qθ 的输出包含在 M p M_p Mp 的输入状态中,因此我们的目标是最大化 q θ q_θ qθ q q q 之间的性能差距,其中 J p J_{p} Jp 是 MDP M p M_p Mp 中的平均回报。
max ⁡   η ( θ ) = J p ( q θ ) − J p ( q ) \max\text{ }\eta(\theta)=J_{p}(q_{\theta})-J_{p}(q) max η(θ)=Jp(qθ)Jp(q)


根据文献,我们得到 η ( θ ) = E s ∼ d q θ , z ∼ q θ [ R s , z q − V q ( s ) ] \eta(\theta)= E_{s\sim d_{q_{θ}},z\sim q_{θ}} [R^{q}_{s,z} - V_{q}(s)] η(θ)=Esdqθ,zqθ[Rs,zqVq(s)] ,其中 d q θ d_{q_{θ}} dqθ 是由 q θ q_θ qθ 引起的状态访问分布, R s , z q R^{q}_{s,z} Rs,zq 是由 q q q 引起的回合收益, V q V_q Vq q q q 的值函数。

Sham M. Kakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: Proceedings of the 19th International Conference on Machine Learning (ICML). 2002, pp. 267–274.

在离线强化学习中,精确地逼近 q θ q_θ qθ 是困难的,因此我们更希望使用 q q q 的分布作为 q θ q_θ qθ 的状态访问分布,以避免过多的传播误差。为了实现这一点,我们在 q q q q θ q_θ qθ 保持紧密接近的限制下,优化 η ^ ( θ ) = E s ∼ q , z ∼ q θ [ R s , z q − V q ( s ) ] \hat{\eta}(\theta)= E_{s\sim q,z\sim q_{θ}} [R^{q}_{s,z} - V^{q}(s)] η^(θ)=Esq,zqθ[Rs,zqVq(s)]

9

像这种带有显式约束条件的优化,都可以用拉格朗日转化成一个非限制的优化, β \beta β 是拉格朗日乘子。

10

通过对上述式子右侧关于 q θ q_{θ} qθ 求导,并遵循文献中的最优策略推导过程,获得了满足下面回报加权条件的闭式解。

Xue Bin Peng et al. “Advantage-weighted regression: Simple and scalable off-policy reinforcement learning”. In: arXiv preprint: 1910.00177 (2019).

Aviral Kumar, Xue Bin Peng, and Sergey Levine. “Reward-conditioned policies”. In: arXiv reprint: 1912.13465 (2019).

11

当省略基线项 V q ( s ) V_{q}(s) Vq(s) 并达到常数时,我们还发现 L S R L_{SR} LSR 的加权技能正则化损失可以使子任务嵌入与给定任务的高质量技能相匹配,从而促进任务分解为可共享和可实现的子任务。

我的评论:好难啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊!!!!!

4 Data Augmentation by Imaginary Demonstrations

在离线强化学习中,由于给定的静态数据集可能无法完全代表其相应的真实马尔可夫过程,且不允许进一步探索,因此强化学习智能体通常会经历次优性能。

生成模型和噪声用于生成附加轨迹,可以使智能体进行本地局部的探索。

在本节中,作者介绍了一种特定于上述任务分解的数据增强方法,其中包括质量感知技能正则化,以便我们可以解决过度拟合和有限性能问题。现有的工作旨在通过利用状态增强方法来减少未见状态的不良影响,而作者则专注于增强这些轨迹(虚构演示),这些轨迹很可能是由高质量的基于技能的学习生成的。

12

大概的意思就是通过技能解码器优化执行动作的同时,将技能解码器和任务解码器耦合来生成想象的动作。

然后作者得到了 imaginary trajectory 的生成方式:通过状态和浅层变量的信息(技能解码器)的得到动作;通过状态和浅层变量的信息,以及生成的动作信息,得到想象的下一时刻的状态和想象的奖励。

13

Note that in this generative model, p θ p_θ pθ performs the same role of the world model in conventional model-based RL approaches.

这个也好理解,model-based 的方法是学习环境的动力学特性,这部分相当于学好了环境动力学然后做预测


Accordingly, it turns out that the augmentation procedure in (9) yields a plausible trajectory similar to expert demonstrations, given that the high-quality skill corresponding to the trajectory is incorporated into p ϕ p_ϕ pϕ .

作者发现,通过自己的方法可以生成很好的轨迹,这个轨迹跟专家示教轨迹一样,这是因为对应这条轨迹的高质量技能被集成到了 p ϕ p_ϕ pϕ 中。

14

作者通过图片展示了自己生成的轨迹的好坏。原本的源数据集,有好的轨迹和不好的轨迹;但是相比于高斯噪声和专家数据,这样的想象的演示数据把质量好的、优势的数据全部集中了。

5 Experiments

Experiment settings

机器人操作环境 —— Neta-world 无人机环境 —— the Airsim drone simulator

Comparison methods
nameTD3 + BCPCGradSoft modularization (SoftMod)
context最好的离线强化学习算法;在 TD3 的更新步骤中加入了一个行为克隆的正则化项;包括一个独热编码的任务表示作为状态的一部分。一种基于梯度修剪的多任务强化学习算法;使用投影函数来消除梯度之间的方向冲突。专为多任务强化学习定制的模块化深度神经网络架构;减轻在单个策略上学习不同任务的负面影响,使用一组专门针对多个任务进行训练的模块上的软加权路由路径,它还采用了一种损失平衡策略。

u1s1,作者的这种 baseline 介绍的写法很值得学习啊~~~

Offline datasets

Medium-Replay(MR)表示从初始到部分训练的中等策略中学习过程中采样的数据集;Replay(RP)表示在整个学习过程中采样的数据集;Medium-Expert(ME)表示从中等到专家策略中学习过程中采样的数据集。

请注意,除非另有说明,否则每个任务的MR、RP和ME数据集分别包含150、100和50个 episode 轨迹。

5.1 Meta-world Tests

MT10 benchmark (i.e., 10 different control tasks)

The tasks share common primitive functions such as grasp and moving, so they can be seen as general multi-tasks with shared subtasks, which are consistent with our task decomposition strategy.

这些任务共享通用的基本功能,例如抓取和移动,因此它们可以被视为具有共享子任务的通用多任务,这与我们的任务分解策略是一致的。

Performance on MT10 benchmark

15

TD3+BC and PCGrad show better performance for the configurations of low-quality datasets, e.g., the row of (MR 10, RP 0, ME 0), but SoftMod shows better performance for the configurations of high-quality datasets e.g., the row of (MR 0, RP 0, ME 10).

TD3+BC and PCGrad explore the orthogonality of tasks by accumulating task-specific knowledge separately without much interference when learning different tasks, and SoftMod rather exploits the commonality of the tasks by learning shared skills and dynamically extracting task-specific knowledge by the combination of its modules.

TD3+BC和PCGrad通过分别累积特定于任务的知识来探索任务的正交性,在学习不同任务时几乎没有干扰,而SoftMod则通过学习共享技能和通过其模块的组合动态提取特定于任务的知识,从而利用任务的共性。

Specifically, our TD3+BC implementation with one-hot task encoding tends to learn individual tasks separately, considering that the task encoding does not represent the semantic relation of different tasks explicitly.

具体来说,使用一位有效编码的 TD3+BC 实现倾向于单独学习各个任务,考虑到任务编码未明确表示不同任务之间的语义关系。

Ablation study

16

SRTD-Q:denotes SRTD without the quality weighted term

SRTD+N:denotes SRTD with the Gaussian noise-based data augmentation commonly used in offline RL

5.2 A Case Study for Airsim-based Drone Navigation

实验配置:我们在PEDRA中配置了各种逼真的地图和多样化的风模式,以构建一个多任务的无人机飞行环境。

17

6 Related Work

Multi-task RL

多任务强化学习已经被研究用于在现实世界环境中高效处理复杂控制问题。通过共同训练带有多个任务的深度神经网络,多任务强化学习算法驱动智能体学习如何在相关任务之间共享、重复使用和组合知识。

Yang等人提出了一个明确的模块化架构,带有软路由网络,用于训练集成的多任务策略。这种软模块化称为soft modularization,解决了单个网络中任务关系不清晰的问题,即哪些共享参数与哪些任务相关。

Ruihan Yang et al. “Multi-task reinforcement learning with soft modularization”. In: Proceedings of the 33rd Advances in Neural Information Processing Systems (NeurIPS). 2020.

Yu等人提出了一种梯度修剪方法,直接消除单个策略中多任务学习的负面影响,并在学习不同任务时识别和调整计算梯度的几何冲突。

Tianhe Yu et al. “Gradient surgery for multi-task learning”. In: Proceedings of the 33rd Advances in Neural Information Processing Systems (NeurIPS). 2020.

Task and skill embeddings in multi-task RL

在元强化学习、多任务强化学习、模仿学习和非稳态强化学习的背景下,引入了几种使用任务嵌入的方法。

Pertsch等人证明了通过预训练的低层策略,可以轻松实现给定技能,而产生适当技能的高层策略可以提高学习效率,其中技能被嵌入到潜空间中,使用专家数据。

Karl Pertsch et al. “Demonstration-Guided Reinforcement Learning with Learned Skills”. In: Proceedings of the 5th Conference on Robot Learning (CoRL). Vol. 164. PMLR. 2022.

Sodhani等人在学习多任务策略时使用额外的元数据,利用自然语言中的任务描述来表示任务在潜空间中的语义和关系。

Shagun Sodhani, Amy Zhang, and Joelle Pineau. “Multi-task reinforcement learning with context-based representations”. In: Proceedings of 38th International Conference on Machine Learning (ICML). PMLR. 2021, pp. 9767–9779.

尽管这些先前的工作依赖于在线交互,并且很少考虑多样化的数据集和不同的行为策略,这在多任务离线强化学习中很常见,但我们的模型采用了质量感知的正则化来处理多任务数据集的混合配置。我们还设计了一种离线环境中技能和任务表示的联合学习机制。

Data augmentation in offline RL

为了缓解离线强化学习中数据集有限和未知状态的问题,一些工作在离线强化学习中采用了数据增强、数据共享和基于模型的方法。

Sinha等人测试了几种数据增强方案,展示了离线强化学习算法可能获得的性能提升。

Samarth Sinha, Ajay Mandlekar, and Animesh Garg. “S4RL: Surprisingly simple self-supervision for offline reinforcement learning in robotics”. In: Proceedings of 5th Conference on Robot Learning (CoRL). PMLR. 2022, pp. 907–917.

Yu等人提出了一种保守的Q函数,可以判断哪些转换对于学习特定任务是相关的,从而在数据稀缺情况下建立条件数据共享策略。

Tianhe Yu et al. “Conservative data sharing for multi-task offline reinforcement learning”. In: Proceedings of the 34th Advances in Neural Information Processing Systems (NeurIPS). 2021

作者的虚拟演示数据增强方法与此类似,但它侧重于利用共同技能生成轨迹,很可能是由专家策略生成的。

7 Conclusion

The direction of our future works is to investigate the hierarchy of skill representation with different temporal abstraction levels in multi-task offline RL. This will tackle the limitation of our model that considers only fixed-length sub-trajectories for task and skill embeddings.

我们未来工作的方向是研究多任务离线强化学习中不同时间抽象级别的技能表示层次结构。这将解决我们模型的局限性,即仅考虑任务和技能嵌入的固定长度子轨迹。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ctrl+Alt+L

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值