Deep Reinforcement Learning amidst Lifelong Non-Stationarity

本文探讨了强化学习在终身非平稳环境中的应用,提出了动态参数马尔科夫决策过程(DP-MDP)模型。作者提出了一种离线策略的RL算法——终身潜在演员批评家(LILAC),该算法能处理环境的持续变化。通过潜在变量模型和变分推理,LILAC能够在非平稳环境中进行推理和适应,从而在一系列模拟环境中展现出优于传统RL算法的性能。
摘要由CSDN通过智能技术生成

如有错误,欢迎指正

本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/2006.10701.pdf.
如有侵权,请私信本人。

摘要

作为人类,我们的目标和环境在我们的一生中都在不断地变化,这取决于我们的经验、行为以及内部和外部的驱动力。相比之下,典型的强化学习问题设置考虑的是跨事件的平稳决策过程。我们是否可以开发强化学习算法,以应对先前更现实的问题设置中的持续变化?虽然原则上在线策略的算法(如策略梯度)可以扩展到非平稳设置,但对于更有效的离线策略算法(在学习时重放过去的经验)则不能如此。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,推导出了一个非策略RL算法,该算法可以对这种终身非平稳性进行推理和处理。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几种具有终身非平稳性的仿真环境,并从经验上发现我们的方法大大优于不考虑环境变化的方法

introduction

在标准强化学习(RL)模型中,假设agent在一个静止的环境中运行,即在固定的动态和奖励下。然而,平稳性的假设在更现实的环境中很少成立,比如在终身学习系统的背景下[54]。也就是说,在其生命周期中,一个agent可能会受到环境动态和随时间变化的奖励。例如,在机器人应用中,这种非平稳性表现在不断变化的地形和天气条件上。在某些情况下,甚至目标都不一定是固定的:考虑一个辅助机器人,帮助一个偏好随时间逐渐改变的人类。这些算法在现有的环境中是不可能很好地执行的,因为这些算法在现有的情况下是不可能很好地执行的。

至关重要的是,在上述每种情况下,环境都是由未知的时变参数指定的。这些潜在参数也不是i.i.d.,例如,如果此时天空晴朗,下一个时刻很可能不会突然开始下雨;换句话说,这些参数有关联但未观察到的动态。在本文中,我们用动态参数马尔可夫决策过程(DP-MDP)来形式化这个问题的设置。DP-MDP对应于一系列平稳的MDP,这些MDP通过一组由自治动力系统控制的潜在参数关联。虽然所有非平稳mdp都是部分可观测Markov决策过程(POMDP)[27]的特例,但在这种情况下,我们可以利用隐藏参数动态中可用的结构,避免在一般情况下求解POMDP。

在线策略RL算法原则上可以处理这种非平稳性[52]。然而,在高度动态的环境中,在环境发生变化之前只允许有限的交互,并且在策略上的方法可能无法在这种低镜头设置下足够快地适应[2]。相反,我们需要一个离线策略的RL算法,它可以利用过去的经验来提高样本效率和对环境动态进行推理。为了适应,agent需要预测MDP参数将如何变化的能力。因此,我们需要MDP的表示以及参数在这个空间中如何演变的模型,这两个都可以从离线策略的经验中学习到。

为此,我们的核心贡献是一个离线策略的RL算法,它可以通过联合学习(1)一个潜在变量模型(它提供了MDP的一个紧凑表示)和(2)一个最大熵策略与此表示相结合来在非平稳性下运行。 我们在一组显示持续非平稳性的模拟环境上验证了我们的方法,我们称之为终身潜在演员批评家(LILAC)。在我们的实验评估中,我们发现我们的方法远远优于不考虑环境动力学的RL算法。

DPMDP

标准RL设置假定与固定MDP发生偶发性交互作用[51]。在现实世界中,假设具有相同mdp的回合式交互作用是有限的,因为它没有捕捉到可能影响决策问题的各种外生因素。避免严格假设马尔科夫观测值的一个常见模型是部分观测MDP(POMDP)公式[27]。虽然POMDP非常通用,但我们在这项工作中重点关注利用非平稳MDP的已知结构来提高性能。特别地,我们考虑一个场景环境,我们称之为动态参数MDP(DP-MDP),其中每个回合中都会出现一个新的MDP(我们也称MDP为任务)。为了反映现实世界非平稳性的规律性,任务通过一组连续的参数进行顺序关联。

形式上,DP-MDP配备有状态空间S、动作空间A和初始状态分布ρS(s1)。根据隐参数MDP(HiP-MDP)[10],一组未观测到的任务参数z∈z定义了每个任务的动力学ps(st+1 | st,at;z)和奖励函数r(st,at;z)。与HiP-MDP相比,DP-MDP中的任务参数z不是i.i.d.采样,而是根据pz(zi+1 | zi)随机移动,初始分布为ρz(z1)。换言之,DP-MDP是一系列由转移函数pz确定参数的任务序列。如果每个事件的任务参数z已知,扩展的状态空间S×z将定义一个完全可观测的MDP,我们可以使用标准RL算法。因此,在我们的方法中,我们的目标是推断隐藏的任务参数并学习它们的转移函数,从而允许我们利用现有的RL算法,通过使用推断出的任务参数来增加观测值。

Preliminaries: RL as Inference

我们首先讨论概率推理和强化学习之间的一种既定联系[55,34],为我们的方法提供一些背景。在较高的层次上,该框架将顺序决策作为一个概率图形模型,从这个角度出发,最大熵RL目标可以作为该模型的推理过

### 回答1: “使用双重Q学习的深度强化学习”是一种强化学习算法,它使用双重(double)Q学习来解决传统Q学习中的估计误差问题。通过使用两个独立的Q网络来计算状态-行为值函数,可以减少估计误差,提高学习效率和稳定性。在深度强化学习中,该算法可以应用于诸如游戏、机器人控制等复杂任务。 ### 回答2: Deep Reinforcement Learning with Double Q-Learning(双Q学习的深度强化学习)是一种利用深度学习技术进行增强学习的方法。在传统的强化学习中,Q-Learning是最常用的算法。然而,传统的Q-Learning存在着过高估计(overestimation)的问题,即它会过度估计某些动作的价值,这会使得智能体在实际运用过程中效果下降。 Double Q-Learning便是为了克服这一问题而被提出的算法。 Double Q-Learning是将Q-Learning算法分解成两个独立的网络,并通过互相交替使用这两个网络的方式来消除过高估计。具体来说,Double Q-Learning的基本思想是采用一对Q函数,将它们互相制约,使每个Q函数只估计另一个Q函数所做出的贪心策略的Q值。因此,这种方法将学习由另一个Q函数选择的最佳动作。 Deep Reinforcement Learning with Double Q-Learning所做的改进是将双Q学习应用于深度神经网络中。这样可以在复杂的环境中获得更好的性能。深度学习网络可以自主提取及学习输入数据的特征,然后利用这些特征来预测下一个状态的价值。因此,深度学习网络可以训练出更好的Q值函数,从而使得智能体的决策更加准确和稳定。同时,使用双Q学习技术使得网络更加稳定,从而更容易训练出更加准确和高效的智能体。 总体来说,Deep Reinforcement Learning with Double Q-Learning是一种高效的增强学习方法,可以帮助智能体在复杂环境下学习最佳策略。Double Q-Learning技术可以有效地消除过高估计的问题并提高点估计Q函数的准确性。同时,深度神经网络可以在处理高维度状态空间时提高学习效率。 ### 回答3: 深度强化学习是一种通过不断试错的方式,使机器在特定环境下学习并改进其决策能力的算法。其中,双重Q学习是一种基于Q-learning强化学习算法,其通过双重估计目标函数,从而提高学习的效率和稳定性。下面将详细介绍深度强化学习与双重Q学习的原理及其优缺点。 深度强化学习简介: 深度强化学习依赖于神经网络模型和回报函数来指导决策。该方法通过梯度下降算法来不断更新参数以优化模型。其中,Q-learning是一种基于值函数的学习方式,其依赖于动作价值Q函数来指导决策。在深度强化学习中,可以通过深度Q网络来实现Q函数的学习。 双重Q学习的原理: 在Q-learning算法中,估计Q函数的时候会涉及到目标值的计算,目标值即为当前状态下的最大Q值。由于这个最大值来自于学习目标的网络,因此它本身也是训练数据中的最大值。而事实上,Q-learning很容易会高估这些值,从而导致学习的波动性增强和性能的下降。为了解决这个问题,双重Q学习引入了两个Q网络,并通过一定的策略来选择其中的一个网络计算Q值。对于目标函数的计算,与之前不同的是,双重Q学习将估计Q值和选择动作的过程分开进行,从而减少了Q值的高估。 双重Q学习的优缺点: 优点: 1.双重Q学习可减少估计Q函数时的波动,从而提高了学习的稳定性和性能。 2.该算法可以避免Q值函数过高或过低的问题,从而提高学习效果。 3.可针对复杂的决策任务和环境设计较为复杂的网络结构以提高效率。 缺点: 1. 双重Q学习需要建立两个Q网络,因此需要的计算资源较大。 2. 该算法对于环境动态变化较大的任务较难优化。 总之,深度强化学习与双重Q学习为现代人工智能领域的研究和应用提供了一些有益的思路和方法。在实际应用中,需要结合具体问题的特点和实际情况进行选择。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值