Learning Robust Options

摘要

鲁棒强化学习旨在生成具有强保证的策略,即使在参数具有强不确定性的环境/转换模型中也是如此。现有的工作使用基于值的方法和通常的基本操作设置。在这篇论文中,我们提出了一种鲁棒的学习方法,在选择的框架下学习时间抽象动作。提出了一种具有收敛保证的鲁棒期权策略迭代(ROPI)算法,该算法学习对模型不确定性具有鲁棒性的期权。我们利用ROPI学习鲁棒选项,使用鲁棒选项深度Q网络(RO-DQN)解决多个任务,并减轻模型不确定性导致的模型错误说明。实验结果表明,当使用粗特征表示时,带有线性特征的策略迭代可能具有一种固有的鲁棒性。此外,我们提出的实验结果表明,鲁棒性有助于在深度神经网络上实现的策略迭代泛化到比非鲁棒策略迭代更广泛的动态范围。

介绍:

在这篇论文中,我们重点开发了学习临时扩展动作的方法(Sutton, Precup, Singh 1999),这些方法对模型的不确定性具有鲁棒性。临时延长行动,也称为选项(Sutton, Precup,和Singh 1999),技能(da Silva, Konidaris,和Barto 2012;Mankowitz, Mann, and Mannor 2016b;Mankowitz, Mann, and Mannor 2016a)或宏观作用(Hauskrecht et al. 1998)已经在理论(Precup, Sutton, and Singh 1998)和实验(Mann and Mannor 2014)两方面得到了证明,以提高RL规划算法的收敛速度。我们将临时扩展操作称为从此以后的选项。虽然许多研究致力于自动学习选项,如(S ims ek和Barto 2005;da Silva, Konidaris和Barto 2012;Mankowitz, Mann, and Mannor 2016b;Mankowitz, Mann, and Mannor 2016a;就我们所知,没有一项工作把重点放在能够对不确定性建模的学习选项上。

为了理解模型的不确定性,考虑一个试图抬起一个盒子的双联机器人手臂(图1a)。臂长l1可以由动态系统Pdynamics1建模,也称为状态转换函数或转换模型。这些术语将在整篇文章中互换使用。过渡模型控制着这个手臂的动力学。对于长度为l2和l3的臂分别生成了不同的模型Pdynamics2和Pdynamics3。所有这些武器都试图执行相同的任务。使用模型Pdynamics1训练的RL代理可能无法充分使用Pdynamics2或Pdynamics3执行任务。然而,理想情况下,代理应该不知道模型参数中的不确定性,并且仍然能够解决任务(即,把箱子举起来)。

RL的实际应用依赖于以下两步蓝图:第一步—建立模型:通过三种方法之一获得模型:(1)获取有限的、有噪声的数据批,并根据这些数据建立模型;(2)可直接提供环境的简化近似模型(如发电、采矿等);(3)建立了环境模型(如动力系统)。第二步-学习策略:然后使用RL方法根据这个模型找到一个好的策略。在(1)和(2)的情况下,由于模型中分别存在噪声、有限数据和简化模型,模型参数不确定。在case(3)中,模型不确定性发生在上述例子中所讨论的物理agent参数不确定的情况下。这对工业机器人尤其重要,因为工业机器人会定期被新机器人替换,而新机器人可能不会共享完全相同的物理规范(因此具有略微不同的动力学模型)。学习与模型参数无关的策略对于增强对模型不确定性的鲁棒性至关重要。

我们关注(3):动态系统中的学习策略,使用健壮的MDP框架(Bagnell, Ng, and Schneider 2001;Nilim和El Ghaoui 2005;,对模型不确定性(例如,手臂长度不同的机器人)具有很强的鲁棒性。

为什么要学习健壮的选项?前期作品(Mankowitz, Mann, Mannor 2016b;Mankowitz, Mann, and Mannor 2016a;培根,Harb, preup 2017;曼科维茨(Mankowitz)、塔玛尔(Tamar)和曼诺(Mannor)等人2017年的研究表明,这些选择缓解了压力。基于特征的模型错规格(FMM)。在线性设置中,当向学习代理提供有限的策略特征表示,但这些表示不够丰富,不足以解决任务时,就会发生FMM。在非线性(深度)设置中,当深度网络学习一组次优特性时,就会发生FMM,从而导致性能次优。在我们的工作中,我们展示了减轻FMM的选项确实是必要的。然而,正如上面的例子(图1a)所讨论的,模型的不确定性也会导致次优性能。我们在实验中表明,这在深层网络中尤其成问题。因此,我们学习了健壮的选项来减轻FMM和模型的不确定性,我们将这些不确定性统称为模型错误说明3。政策迭代(PI) (Sutton and Barto 1998)

策略迭代(PI) (Sutton and Barto 1998)是一种功能强大的技术,存在于不同的变体中(Lagoudakis和Parr 2003;在许多RL算法中。深度Q网络(Mnih 2015)是一个使用PI形式的强大非线性函数逼近器的例子。行动者-批评家政策梯度(AC-PG) (Konda和Tsitsiklis 1999;算法执行PI的在线形式。因此,我们决定在策略迭代框架中执行选项学习。

引入了鲁棒期权策略迭代(ROPI)算法,该算法在保证收敛的前提下,学习鲁棒期权,以减轻模型的不规范。我们的新ROPI算法由两个步骤组成,如图1b所示,其中包括策略评估(PE)步骤和策略改进(PI)步骤。对于PE,我们利用RPVI (Tamar, Mannor, and Xu 2014)进行政策评估,学习价值函数参数w;然后,我们使用鲁棒策略梯度(在第4节中讨论)执行PI。ROPI学习鲁棒期权和鲁棒期权间策略,具有理论收敛性保证。我们在线性和非线性(深度)特征设置中展示了算法。

在线性设置中,我们展示了一个称为尽快(Mankowitz、曼和Mannor 2016 a)的线性选项学习算法的非鲁棒版本,它学习了一组固有的鲁棒选项。我们声称,这是由于所选特性表示的粗糙性造成的。这证明,在某些情况下,线性近似动态规划算法可以免费获得鲁棒性。

然而,在非线性(深度)设置中,明确地将鲁棒性纳入学习算法对模型不确定性的鲁棒性至关重要。我们将ROPI合并到深度问网络中,形成一个健壮的选项深度问网络(RO-DQN)。通过使用RO-DQN,代理可以学习一组健壮的选项来解决多个任务(两个动态系统),并减少模型的错误说明。

主要贡献:(1)利用具有收敛保证的ROPI算法学习鲁棒性选项;这包括开发一个鲁棒策略梯度(R-PG)框架,其中包括一个鲁棒兼容条件;(2)线性版本的ROPI能够减轻模型的不规范;(3)实验表明,采用粗特征表示的线性近似动态规划算法具有较好的鲁棒性。(4) RO-DQN,通过学习鲁棒选项,使用ROPI来减少模型的误规格,解决了多个任务。

 

6. 实验

我们在两个著名的连续域(CartPole和Acrobot 7)中进行了实验。侧手翻和Acrobot的过渡动力学(模型)都可以建模为动力学系统。在每次实验中,agent都面临模型不规范的问题。即基于特征的模型错规格(FMM)和模型不确定性。在每个实验中,该制剂通过使用选项(Mankowitz, Mann, and Mannor 2016b;Mankowitz, Mann, and Mannor 2016a;(Mankowitz, Mann, and Mannor 2014),通过使用ROPI学习健壮的选项来建模不确定性。分析了ROPI在线性和非线性特征设置中的性能。在线性设置中,我们将ROPI应用于Adaptive Skills, Adaptive Partitions (ASAP) (Mankowitz, Mann, and Mannor 2016a)选项学习框架。在非线性(深度)设置中,我们将ROPI应用于我们的鲁棒选项DQN (RO-DQN)网络。

实验分为两部分。在第6.4节中,我们证明ROPI是不必要的,因为学习线性非鲁棒性选项为解决侧手极提供了一种自然的鲁棒性形式,并减轻了模型的错误说明。这为使用粗特征表示的线性近似动态规划算法在某些情况下获得鲁棒性提供了一些证据。我们接下来要问的问题是,这种自然形式的健壮性是否存在于深层环境中?我们在6.5节的实验中证明了情况并非如此。在这里,使用ROPI学习的健壮选项对于减少模型的错误说明是必要的。在每个实验中,我们比较(1)错误指定的agent(即,由于FMM和模型的不确定性,任务求解次优的策略);(2)减轻FMM的非鲁棒期权学习算法和(3)减轻FMM和模型不确定性的鲁棒期权学习ROPI算法(即,模型misspecification)。

6.2

对于每个域,我们生成一个不确定集p。在Cartpole中,不确定集Pcartpole是通过固定lpole长度上的正态分布产生的,在训练前在0:5 5米范围内从这个分布中抽取5个长度进行采样。然后将每个采样长度代入产生5个不同跃迁函数的侧极动力学方程。通过从产生最坏情况值的不确定集中选择转换函数来执行健壮的更新。在Acrobot中,通过在肩膀和肘部之间的手臂连杆marm的质量上固定一个正态分布来生成不确定度集Pacrobot。从15千克的质量分布中抽取5个质量样本,并生成相应的转换函数。

6.3

在训练过程中,无论是Cartpole还是Acrobot, agent都是按照名义迁移模型进行迁移的。在Cartpole中,标称模型对应的杆长为0:5米。在Acrobot中,标称模型对应的手臂质量为1kg。在评估期间,代理对具有不同参数设置的转换模型(即,在侧手翻中臂长不同的系统,在Acrobot中臂长不同的系统)。

6.4

线性ROPI:我们首先使用线性特征在Cartpole域中测试了ROPI的在线变化。为此,我们实现了一个健壮版本的Actor批评家策略梯度(AC-PG),其中使用健壮的TD错误更新批评家,如公式1所示。我们采用的是固定的学习速度,在实践中效果很好。批评家利用包含[1;1;8;5]每个尺寸对应的箱体。我们为参与者提供一个有限的策略表示——图2:(a):1个Cartpole和(a):2个Acrobot域。(b)分析Cartpole中的选择分区。tion是独立于状态的动作(左、右)的概率分布。然后,我们训练代理人的标称杆长为0:5米。为了进行评估,我们对每个学习策略的性能进行了平均,每个参数设置超过100集,其中参数为0:5 5:0米范围内的杆长。如图3a所示,对于任何杆长,代理都不能使用有限的策略表示来解决任务,从而导致FMM。为了减少错误说明,我们学习了使用ASAP算法的非鲁棒选项(Mankowitz, Mann, and Mannor 2016a)。使用单个选项超平面K = 1(参见第2节),ASAP学习两个选项,其中每个选项的内部选项策略包含与之前相同的有限策略表示。期望尽快的选项减轻FMM,并解决它所训练的标称杆长0:5米左右的杆长问题。然而,它应该努力解决的任务,显着不同的极长(即。模型不确定性)。

令我们惊讶的是,ASAP option learning算法能够解出所有0:5米以上的杆长,如图3a所示,即使它只在标称杆长0:5米的情况下进行训练。即使在网格搜索了所有的学习参数之后,代理仍然在这些极点长度上解决了任务。这与ASAP的健壮版本(图3a)进行了比较,ASAP版本减轻了错误说明,并按照预期解决了多个极点长度的任务。

6.5

非线性ROPI: RO-DQN在非线性(深度)设置中,我们训练一个代理学习鲁棒选项,以减轻多任务场景中的模型错误说明8。在这里,学习代理需要学习一个解决Cartpole的选项和一个使用公共共享表示(即,一个单一的网络)。我们在每个实验中使用的单一网络是一个DQN变体,由3个完全连接的隐藏层组成,每层128个权值和ReLu激活。超参数值可以在附录中找到。我们使用ADAM优化器对DQN丢失函数进行了最多3000次的优化(除非任务在前面得到解决)。对于评估,每个学习网络的平均每个参数设置超过100个插曲(即。,参数设置包括侧手翻杆杆长0:5 5:0米,Acrobot杆重1:0 5:5 Kgs)。在这种情况下,DQN网络很难学习好的特性来同时使用公共共享表示来解决这两个任务。它通常在次优解决每个任务之间摇摆不定,导致模型规格错误9。训练后的DQN在不同参数设置下对CartPole和Acrobot的平均性能分别如图3b:1和3b:2所示。因此,我们添加了一些选项来减少模型的错误说明。选项DQN (O-DQN)网络通过复制最后一个隐藏层来使用两个选项头。的在线方式的mization fashion(与使用专家进行监督学习的policy (Rusu 2015)相反)。即在Cartpole或Acrobot中执行一个插曲时,分别激活与Cartpole或Acrobot对应的最后一个隐藏层,并对相关选项头进行反向传播。这个网络能够学习解决CartPole和Acrobot两个任务的选项,如图3b:1和3b:2所示。然而,随着任务参数的变化(以及因此而产生的转换动态),O-DQN在这两个领域的选项性能都会下降。如图所示,这在侧手翻中尤为严重。在这里,鲁棒性对于减轻由于转换动力学中的不确定性而导致的模型错误说明是至关重要的。

7. discusion

我们提出了ROPI框架,该框架能够学习对过渡模型动态中的不确定性具有鲁棒性的选项。ROPI具有收敛性保证,需要得到鲁棒的策略梯度和相应的鲁棒兼容条件。这是第一个尝试学习健壮选项的同类工作。实验表明,使用非鲁棒ASAP算法学习的线性选项具有自然的形式由于期权执行区域的粗糙性,使得解侧手翻时具有较强的鲁棒性。然而,这并没有转化为深层设置。在这里,健壮的选项对于减少模型的不确定性以及模型的错误说明是至关重要的。我们利用ROPI来学习我们的健壮选项DQN (RO-DQN)。rodqn学习了针对不同参数设置分别求解Acrobot和Cartpole的鲁棒选择。鲁棒选择可用于弥补在模拟中学习的机器人策略与应用于真实机器人的相同策略之间的差距。该框架还为将鲁棒性纳入持续学习应用程序提供了构建块(Tessler等,2017;包括机器人和自动驾驶。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值