强化学习论文(5): Learning Latent Dynamics for Planning from Pixels

Google Brain,Deepmind 提出的 PlaNet
论文地址:https://danijar.com/publications/2019-planet.pdf
源码地址:https://github.com/google-research/planet

摘要

planning(规划)对已知环境转移动态的控制任务非常成功,如需在未知环境中使用 planning,则 agent 需要通过环境交互学习转移动态。然而,学到足够精确支持 planning 的转移动态模型是一项长期挑战,特别是在图像领域。
本文提出 Deep Planning Network (PlaNet),是一个model-based agent,能够:

  1. 从图像中学习环境转移动态
  2. 通过在隐空间进行快速在线 planning 来选择动作

要实现高性能,转移动态模型必须能精确预测多个时间步之后的 reward。为达成这一目标,本文使用了一个隐动态模型,包含确定性和随机性组件。同时,本文还提出了一个多步变分推断目标,记为 latent overshooting.
本文所提出的 agent 仅使用像素观察,来解决部分可观测,稀疏 reward 的控制问题,超出了以往 model-based方法解决问题的难度。其表现与 model-free 方法相当,而样本量更少。

背景介绍

学习转移动态模型最主要的困难包括:模型的准确性,多步预测累积的误差,未能捕获未来丰富的可能性,以及对训练分布的过拟合造成的泛化失败。
使用学习得到的模型进行 planning,相比 model-free 方法有以下几点好处:

  1. model-based planning 方法更加 data-efficient(数据依赖小),因为它对训练信号的使用更充分,并且不需要通过贝尔曼方程传递 reward;
  2. 以增加对 action 的搜索为计算代价,planning 提高了agent 的表现
  3. 学到的模型独立于特定任务,有潜力通过转化服务于相同/似环境下的其他任务。

近期的工作已经展示了在简单低维情形下学习转移动态的优势,但这些工作都假定已知环境的底层状态和明确的reward函数,这在现实应用中并不可行。在高维情形下,我们希望在一个紧凑的隐空间学习转移动态以保证快速 planning。这种隐空间模型已经在简单任务上取得了成功。
一句话总结:PlaNet 发展了model-based planning 方法,解决了更困难的基于像素的连续控制问题
主要贡献:潜空间planning,循环状态空间模型,latent overshooting(给出多步预测变分下界,改善多步预测结果).

潜空间planning

Framework

假设已有学到的转移动态模型,算法框架如下:
由于单一图像无法反映环境状态的全部信息,将问题建模为一个POMDP(部分可观测 markov 决策过程), s t s_t st为底层状态, o t o_t ot为环境观测, a t a_t at为连续动作向量。
在这里插入图片描述
注意到PlaNet所有的建模都只针对环境,而后在环境中进行规划,并没有策略网络/值网络。同时,在交互过程中,每一步都重新做planning,以保证能够根据新的观测作出调整(与MPC类似)。

Planning 算法

Planning算法使用了CEM (cross entropy method), CEM是一种基于群体的优化方法,它能够推断出动作序列的最优分布。
在这里插入图片描述

模型

本文提出一个循环状态空间模型 (RSSM) 在隐空间进行前向预测,这一模型可被看作非线性Kalman滤波器或者序列VAE.

SSM

潜状态空间模型如下图b所示,下面所涉及的模型都是由神经网络参数化的高斯分布。
在这里插入图片描述
在这里插入图片描述
由于模型都是非线性的,因此无法直接计算出参数学习所需的状态后验。因此,本文使用编码器 q ( s 1 : T ∣ o 1 : T , a 1 : T ) = ∏ t = 1 T q ( s t ∣ s t − 1 , a t − 1 , o t ) q\left(s_{1 : T} | o_{1 : T}, a_{1 : T} \right)=\prod_{t=1}^{T} q\left(s_{t} | s_{t-1}, a_{t-1}, o_{t}\right) q(s1:To1:T,a1:T)=t=1Tq(stst1,at1,ot)来从过去的观测和动作中近似推断状态后验,其中 q ( s t ∣ s t − 1 , a t − 1 , o t ) q\left(s_{t} | s_{t-1}, a_{t-1}, o_{t}\right) q(stst1,at1,ot)是一个由“卷积网络+前向网络”参数化的对角高斯分布。
为使用编码器,本文建立了一个基于数据对数似然的变分下界 (Jensen 不等式):
ln ⁡ p ( o 1 : T ∣ a 1 : T ) ≜ ln ⁡ ∫ ∏ t p ( s t ∣ s t − 1 , a t − 1 ) p ( o t ∣ s t ) d s 1 : T ≥ ∑ t = 1 T ( E q ( s t ∣ o ≤ t , a < t ) [ ln ⁡ p ( o t ∣ s t ) ] ⎵  reconstruction  − E q ( s t − 1 ∣ o ≤ t − 1 , a < t − 1 ) [ K L [ q ( s t ∣ o ≤ t , a < t ) ∥ p ( s t ∣ s t − 1 , a t − 1 ) ] ] ⎵  complexity  ) . \ln p\left(o_{1 : T} | a_{1 : T}\right) \triangleq \ln \int \prod_{t} p\left(s_{t} | s_{t-1}, a_{t-1}\right) p\left(o_{t} | s_{t}\right) d s_{1 : T}\geq \sum_{t=1}^{T}\left(\underbrace{\mathrm{E}_{q\left(s_{t} | o _{\leq t}, a_{<t}\right)}\left[\ln p\left(o_{t} | s_{t}\right)\right]}_{\text { reconstruction }} -\underbrace{\mathrm{E}_{q\left(s_{t-1} | o _{\leq t-1}, a_{<t-1}\right)}\left[\mathrm{KL}\left[q\left(s_{t} | o_{ \leq t}, a_{<t}\right) \| p\left(s_{t} | s_{t-1}, a_{t-1}\right)\right]\right]}_{\text { complexity }}\right). lnp(o1:Ta1:T)lntp(stst1,at1)p(otst)ds1:Tt=1

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值