Meta-Q-Learning

本文介绍了元强化学习算法Meta-Q-Learning(MQL),它是一种非策略性的off-policy算法,旨在通过元训练最大化所有任务的平均回报。MQL利用倾向估计放大了可用于适应新任务的数据量,实验表明MQL在标准连续控制基准测试上优于现有meta-RL算法。MQL的适应阶段结合元训练回放缓冲区的数据,利用logistic回归估计倾向得分,以有效利用过去的数据进行策略调整。
摘要由CSDN通过智能技术生成

如有错误,欢迎指正

本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.
如有侵权,请私信本人。
参考链接:https://zhuanlan.zhihu.com/p/109064006.

摘要

介绍了元强化学习(Meta-Q-Learning,MQL)的一种新的off-policy算法Meta-RL。MQL建立在三个简单的思想之上。首先,我们证明了Q学习与最先进的meta-RL算法相比是有竞争力的,如果给定一个上下文变量来表示过去的轨迹。第二,使用多任务目标使训练任务的平均报酬最大化是元训练RL策略的有效方法。第三,元训练回放缓冲区中的过去数据可以被重用,以便使用off-policy更新来调整新任务的策略。MQL利用倾向估计的思想来这样做,从而放大了可用于适应的数据量。在标准连续控制基准测试上的实验表明,MQL与最先进的meta-RL算法相比有优势。

Introduction

强化学习(RL)算法在模拟数据上表现出良好的性能。然而,要将这种性能转化为真实的机器人,有两个主要的挑战:(i)机器人是复杂和脆弱的,无法进行广泛的数据收集;(ii)一个真实的机器人可能面临一个不同于它所训练的模拟环境的环境。这推动了元强化学习(meta-reinforcement Learning,meta-RL)的研究,meta-RL开发了在大量不同环境(如模拟环境)上进行“元训练”的算法,旨在适应数据较少的新环境。
在这里插入图片描述

今天meta-RL的工作情况如何?图1显示了两个典型的meta-RL算法在四个标准连续控制基准上的性能。我们将它们与以下简单基线进行了比较:一个非策略RL算法(由Fujimoto等人提出的TD3)。(2018b)),并对其进行了训练,以使所有训练任务的平均回报最大化,并修改为使用表示轨迹的“上下文变量”。图中的所有算法都使用相同的评估协议。令人惊讶的是,这种基于非元学习的简单方法与最先进的meta-RL算法相比具有竞争力。这是我们论文的第一个贡献:我们证明,没有必要对策略进行元训练,以便在现有基准上做得更好。

我们的第二个贡献是一个名为meta-Q-Learning(MQL)的非策略meta-RL算法,它建立在上述结果的基础上。MQL使用了一个简单的元训练过程:它使用off-policy更新来最大化所有元训练任务的平均回报。
在这里插入图片描述

式中,l’k(θ)是对任务Dk(θ)获得的序列τ进行客观评估,例如,单步时间差(TD)误差将设置为l`k(θ)=TD2(θ;τ)。这个目标,我们称之为多任务目标,是最简单的元训练形式。

为了使策略适应新任务,MQL示例从元训练重播缓冲区获得序列,该缓冲区与新任务中的相似。这会放大可用于适应的数据量,但由于潜在偏差较大,很难做到。我们使用倾向性估计文献中的技术来执行此适应,MQL的off-policy更新对执行此操作至关重要。MQL的自适应阶段解决
在这里插入图片描述

其中,Dmeta是元训练回放缓冲区,倾向性得分β(τ;Dnew,Dmeta)是序列τ属于Dnew或Dmeta的几率,ESS是Dnew和Dmeta之间的有效样本大小,它是新任务与元训练任务类似的度量。第一个部分计算新任务的策略更新,第二个部分对旧数据执行β(·)加权的策略更新,而第三个部分是自动调整的近端部分,防止在适应期间策略的退化。我们在第4.2节中进行了广泛的实验,包括使用标准metarl基准进行烧蚀研究,这些基准证明,即使MQL策略比现有算法的时间步长更少,也能获得更高的新任务平均回报。

background

这一节介绍了表示法并形式化了meta-RL问题。在第2.2节中,我们讨论了估计两个概率分布之间重要性比的技术。考虑马尔可夫决策过程表示为
在这里插入图片描述

其中xt∈X⊂rd是状态,ut∈U⊂rp是动作。用k∈{1,,,n}参数化fk,其中每个k对应一个不同的任务。分布pk0表示初始状态分布,ξt表示动力学中的噪声。在给定确定性策略uθ(xt)的情况下,无限时间范围内γ-折扣未来报酬r k t:=r k(xt,uθ(xt))的作用下值函数为
在这里插入图片描述

请注意,我们假设不同的任务具有相同的状态和动作空间,并且可能只在它们的动态fk和奖励函数rk上有所不同。给定一个任务k∈{1,,,n},标准强化学习(RL)形式化求解
在这里插入图片描述

让我们表示与任务k和策略uθ(x)相关的所有状态、动作和奖励的数据集
在这里插入图片描述

我们通常将Dk称为“任务”。用于求解上上式的确定性策略梯度(DPG)算法(Silver等人,2014年)通过最小化Bellman误差和通过解决耦合优化问题使该近似最大化的最

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MATLAB是一种高级编程语言和环境,被广泛应用于科研、工程和数据分析领域。而meta-learning是一种机器学习的方法,旨在通过学习一系列不同任务的经验,来改善学习算法的性能。那么,MATLAB meta-learning是指在MATLAB环境下进行meta-learning的实践和应用。 在MATLAB中,可以利用丰富的机器学习工具箱和函数,实现不同的meta-learning算法。首先,可以使用MATLAB提供的数据预处理函数来准备输入数据,比如对数据进行清洗、归一化和特征选择等操作。然后,可以使用MATLAB的分类、回归或聚类算法,将数据分为训练集和测试集,并训练学习模型。 在meta-learning中,通常需要通过学习一系列不同任务的经验,来得到适用于新任务的学习模型。MATLAB提供了一些元学习框架和算法,如Adaptive Boosting、Gradient Boosting和Random Forest等。这些算法可以通过集成或组合基本学习算法,来改善整体学习性能。 使用MATLAB进行meta-learning的好处是,它提供了丰富的工具和函数,可以减少编程的复杂性,并实现高效的数据处理和模型训练。此外,MATLAB还支持可视化和结果分析工具,可以直观地展示模型的性能和预测结果。 总而言之,MATLAB meta-learning是指在MATLAB环境下实践和应用meta-learning的方法。通过使用MATLAB的机器学习工具箱和函数,可以实现数据预处理、模型训练和结果分析等操作,从而改善学习算法的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值