Meta-Q-Learning

最新推荐文章于 2023-12-24 19:44:52 发布

rockray21

最新推荐文章于 2023-12-24 19:44:52 发布

阅读量1.2k

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文为博主原创文章，转载请声明作者rockray21。如有问题，欢迎指正。

本文链接：https://blog.csdn.net/rockray21/article/details/108755146

版权

本文介绍了元强化学习算法Meta-Q-Learning（MQL），它是一种非策略性的off-policy算法，旨在通过元训练最大化所有任务的平均回报。MQL利用倾向估计放大了可用于适应新任务的数据量，实验表明MQL在标准连续控制基准测试上优于现有meta-RL算法。MQL的适应阶段结合元训练回放缓冲区的数据，利用logistic回归估计倾向得分，以有效利用过去的数据进行策略调整。

摘要由CSDN通过智能技术生成

如有错误，欢迎指正

本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.
如有侵权，请私信本人。
参考链接：https://zhuanlan.zhihu.com/p/109064006.

摘要

介绍了元强化学习（Meta-Q-Learning，MQL）的一种新的off-policy算法Meta-RL。MQL建立在三个简单的思想之上。首先，我们证明了Q学习与最先进的meta-RL算法相比是有竞争力的，如果给定一个上下文变量来表示过去的轨迹。第二，使用多任务目标使训练任务的平均报酬最大化是元训练RL策略的有效方法。第三，元训练回放缓冲区中的过去数据可以被重用，以便使用off-policy更新来调整新任务的策略。MQL利用倾向估计的思想来这样做，从而放大了可用于适应的数据量。在标准连续控制基准测试上的实验表明，MQL与最先进的meta-RL算法相比有优势。

Introduction

强化学习（RL）算法在模拟数据上表现出良好的性能。然而，要将这种性能转化为真实的机器人，有两个主要的挑战：（i）机器人是复杂和脆弱的，无法进行广泛的数据收集；（ii）一个真实的机器人可能面临一个不同于它所训练的模拟环境的环境。这推动了元强化学习（meta-reinforcement Learning，meta-RL）的研究，meta-RL开发了在大量不同环境（如模拟环境）上进行“元训练”的算法，旨在适应数据较少的新环境。
在这里插入图片描述

今天meta-RL的工作情况如何？图1显示了两个典型的meta-RL算法在四个标准连续控制基准上的性能。我们将它们与以下简单基线进行了比较：一个非策略RL算法（由Fujimoto等人提出的TD3）。（2018b）），并对其进行了训练，以使所有训练任务的平均回报最大化，并修改为使用表示轨迹的“上下文变量”。图中的所有算法都使用相同的评估协议。令人惊讶的是，这种基于非元学习的简单方法与最先进的meta-RL算法相比具有竞争力。这是我们论文的第一个贡献：我们证明，没有必要对策略进行元训练，以便在现有基准上做得更好。

我们的第二个贡献是一个名为meta-Q-Learning（MQL）的非策略meta-RL算法，它建立在上述结果的基础上。MQL使用了一个简单的元训练过程：它使用off-policy更新来最大化所有元训练任务的平均回报。
在这里插入图片描述

式中，l’k（θ）是对任务Dk（θ）获得的序列τ进行客观评估，例如，单步时间差（TD）误差将设置为l`k（θ）=TD2（θ；τ）。这个目标，我们称之为多任务目标，是最简单的元训练形式。

为了使策略适应新任务，MQL示例从元训练重播缓冲区获得序列，该缓冲区与新任务中的相似。这会放大可用于适应的数据量，但由于潜在偏差较大，很难做到。我们使用倾向性估计文献中的技术来执行此适应，MQL的off-policy更新对执行此操作至关重要。MQL的自适应阶段解决
在这里插入图片描述

其中，Dmeta是元训练回放缓冲区，倾向性得分β（τ；Dnew，Dmeta）是序列τ属于Dnew或Dmeta的几率，ESS是Dnew和Dmeta之间的有效样本大小，它是新任务与元训练任务类似的度量。第一个部分计算新任务的策略更新，第二个部分对旧数据执行β（·）加权的策略更新，而第三个部分是自动调整的近端部分，防止在适应期间策略的退化。我们在第4.2节中进行了广泛的实验，包括使用标准metarl基准进行烧蚀研究，这些基准证明，即使MQL策略比现有算法的时间步长更少，也能获得更高的新任务平均回报。

background

这一节介绍了表示法并形式化了meta-RL问题。在第2.2节中，我们讨论了估计两个概率分布之间重要性比的技术。考虑马尔可夫决策过程表示为
在这里插入图片描述

其中xt∈X⊂rd是状态，ut∈U⊂rp是动作。用k∈{1，，，n}参数化fk，其中每个k对应一个不同的任务。分布pk0表示初始状态分布，ξt表示动力学中的噪声。在给定确定性策略uθ（xt）的情况下，无限时间范围内γ-折扣未来报酬r k t：=r k（xt，uθ（xt））的作用下值函数为
在这里插入图片描述

请注意，我们假设不同的任务具有相同的状态和动作空间，并且可能只在它们的动态fk和奖励函数rk上有所不同。给定一个任务k∈{1，，，n}，标准强化学习（RL）形式化求解
在这里插入图片描述

让我们表示与任务k和策略uθ（x）相关的所有状态、动作和奖励的数据集
在这里插入图片描述

我们通常将Dk称为“任务”。用于求解上上式的确定性策略梯度（DPG）算法（Silver等人，2014年）通过最小化Bellman误差和通过解决耦合优化问题使该近似最大化的最

最低0.47元/天解锁文章

rockray21

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Meta-Q-Learning

Meta-Q-Learning如有错误，欢迎指正摘要Introductionbackground如有错误，欢迎指正本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.如有侵权，请私信本人。参考链接：https://zhuanlan.zhihu.com/p/109064006.摘要介绍了元强化学习（Meta-Q-Learning，MQL）的一种新的off-policy算法Meta-RL。MQL建
复制链接

扫一扫

专栏目录