RL论文阅读6 - MB-MPO2018

Tittle

image-20200514122939063

source

标签

  • Meta-learning
  • Model-based

总结

针对问题:

  • data inefficient
  • MB算法过于依赖模型的准确率,如果模型不够准确,就会产生Model-Bais。 之前解决Model-bias的一些工作在参考文献678910。通常使用ensembles(集成)的思想。

解决思路

传统的MB RL算法学习一个足够准确的动态模型,然后用这个模型去启发学习策略,从而这个策略在真实世界同样有效。这篇文章希望放弃对模型准确率的依赖,通过学习一个动态模型的集合(ensemble),并且把策略优化的步骤表述成meta-learning问题

优化目标引导meta-policy去学习集合中的动态模型预测一致的部分,同时把模型差异的困扰转换到了优化步骤上。

没太理解上面这段翻译。

原理

1. 前序工作简介:Meta-Learning for RL

meta-RL 目的是学习一个算法,这个算法能够迅速的从一些服从KaTeX parse error: Undefined control sequence: \cal at position 6: \rho(\̲c̲a̲l̲ ̲M)分布的MDP集合中学习到最优的策略。这些MDP可能有不同的奖励函数和转换概率分布,但是有着共同的动作空间和状态空间。

这个文章利用了MAML的meta-learning框架。

具体MAML框架论文后续更新

image-20200515131219205

2. MPO原理

把model-based RL问题转述成关于动态模型分布的元学习策略,在模型不一致时,提倡最大化策略的适应性,而不是策略的健壮性。

这样做好处

  • 移除了优化一个策略,使这个策略在不同的动态模型都表现的好的任务(难以优化)
  • 更好的探索性能
  • 更高的采样多样性
(1)模型学习:

MPO的一个关键部分就是学习动态模型的分布(distribution of dynamics models),以ensemble的形式存在。

每个模型:

  • 不同的初始化数值
  • 不同的训练数据集,是以随机的方式从实际环境中采样而来的数据KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D子集KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D_k

为了追踪在元学习优化过程中策略改变而引起的分布的转换,频繁的在当前策略下进行采样,并整合到KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D

论文中使用的动力学模型的网络输出的是状态的该变量 △ s = s t + 1 − s t \triangle s = s_{t+1} - s_t s=st+1st,而不是直接输出下一个状态 s t + 1 s_{t+1} st+1

f ^ ϕ \hat f _\phi f^ϕ是下一个状态的估计函数(其实就是网络的输出加上输入的状态)

那么这个网络的优化目标就是:

image-20200515134155207

解释: 在训练结合 D k D_k Dk 下,最小化实际状态和估计状态差的平方 的和 ,这个就是 l 2 l_2 l2 one-step prediction loss

这一步有可能引起overfitting。需要有处理方法。就那几个常用的

  • 根据验证集损失提前结束训练
  • 正则化输入输出
  • 权重正则化
(2)Meta-RL 应用在学习的模型上

已知一个针对特定环境学习好的动态模型集合,现在主要的思想就是学习一个策略,能过快速的适应这些模型中的任何一个。文章使用的是基于梯度的元学习算法MAML。

我们的环境模型集合 { f ^ ϕ 1 . . . f ^ ϕ K } \{\hat f _{\phi1}...\hat f _{\phi K} \} {f^ϕ1...f^ϕK},通过把这些模型嵌入到不同的MDPs M k = ( S , A , f ^ ϕ k , r , γ , p 0 ) {M_k} = (S,A,\hat f _{\phi k},r, \gamma, p_0) Mk=(S,A,f^ϕk,r,γ,p0)中,来构建统一的任务分配。

当动态环境模型改变时,奖励函数不变。

meta优化目标:

image-20200515155228148

image-20200515155239523

J k ( θ ) J_k(\theta) Jk(θ) 是在策略 π θ \pi_\theta πθ和估计动态模型 f ^ ϕ k \hat f_{\phi k} f^ϕk下的return的期望。

轨迹是从想象的MDPs过程中采样的。

在实验中使用TPRO来优化meta-Object,在适应步骤中,应用了VPG(vanilla policy gradient)。

3. 算法

image-20200515155845322

  • 1行只执行一次,初始化参数、从真实世界中采样数据到KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D

  • 3行:通过调整后的策略(adapted policies)从真实世界采样并整合到KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D

  • θ k ′ \theta_k' θk θ k \theta_k θk是两组不同的参数。

  • 在内层循环中(5-9): 对于每个模型,先用 π θ \pi_\theta πθ采样,计算 θ ′ \theta' θ,然后用 θ ′ \theta' θ采样。

  • 10: 用每个模型的采样结果来更新 θ \theta θ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值