强化学习论文(5): Learning Latent Dynamics for Planning from Pixels

最新推荐文章于 2023-06-02 21:27:34 发布

南阁风起

最新推荐文章于 2023-06-02 21:27:34 发布

阅读量2k

点赞数 1

分类专栏：算法基础文章标签：强化学习 PlaNet 人工智能

本文链接：https://blog.csdn.net/qq_27465499/article/details/97135718

版权

PlaNet是Google Brain和DeepMind提出的一种基于模型的智能体，它能从像素中学习环境动态并进行潜空间规划。通过使用循环状态空间模型（RSSM）和latent overshooting技术，PlaNet在部分观测和稀疏奖励的控制问题上实现了高效规划，表现与model-free方法相当，但所需样本更少。

摘要由CSDN通过智能技术生成

Google Brain，Deepmind 提出的 PlaNet
论文地址：https://danijar.com/publications/2019-planet.pdf
源码地址：https://github.com/google-research/planet

摘要

planning（规划）对已知环境转移动态的控制任务非常成功，如需在未知环境中使用 planning，则 agent 需要通过环境交互学习转移动态。然而，学到足够精确支持 planning 的转移动态模型是一项长期挑战，特别是在图像领域。
本文提出 Deep Planning Network (PlaNet)，是一个model-based agent，能够：

从图像中学习环境转移动态；
通过在隐空间进行快速在线 planning 来选择动作。

要实现高性能，转移动态模型必须能精确预测多个时间步之后的 reward。为达成这一目标，本文使用了一个隐动态模型，包含确定性和随机性组件。同时，本文还提出了一个多步变分推断目标，记为 latent overshooting.
本文所提出的 agent 仅使用像素观察，来解决部分可观测，稀疏 reward 的控制问题，超出了以往 model-based方法解决问题的难度。其表现与 model-free 方法相当，而样本量更少。

背景介绍

学习转移动态模型最主要的困难包括：模型的准确性，多步预测累积的误差，未能捕获未来丰富的可能性，以及对训练分布的过拟合造成的泛化失败。
使用学习得到的模型进行 planning，相比 model-free 方法有以下几点好处：

model-based planning 方法更加 data-efficient（数据依赖小），因为它对训练信号的使用更充分，并且不需要通过贝尔曼方程传递 reward；
以增加对 action 的搜索为计算代价，planning 提高了agent 的表现
学到的模型独立于特定任务，有潜力通过转化服务于相同/似环境下的其他任务。

近期的工作已经展示了在简单低维情形下学习转移动态的优势，但这些工作都假定已知环境的底层状态和明确的reward函数，这在现实应用中并不可行。在高维情形下，我们希望在一个紧凑的隐空间学习转移动态以保证快速 planning。这种隐空间模型已经在简单任务上取得了成功。
一句话总结：PlaNet 发展了model-based planning 方法，解决了更困难的基于像素的连续控制问题。
主要贡献：潜空间planning，循环状态空间模型，latent overshooting（给出多步预测变分下界，改善多步预测结果）.

潜空间planning

Framework

假设已有学到的转移动态模型，算法框架如下：
由于单一图像无法反映环境状态的全部信息，将问题建模为一个POMDP（部分可观测 markov 决策过程）， $s_t$ 为底层状态， $o_t$ 为环境观测， $a_t$ 为连续动作向量。
在这里插入图片描述
注意到PlaNet所有的建模都只针对环境，而后在环境中进行规划，并没有策略网络/值网络。同时，在交互过程中，每一步都重新做planning，以保证能够根据新的观测作出调整（与MPC类似）。

Planning 算法

Planning算法使用了CEM (cross entropy method), CEM是一种基于群体的优化方法，它能够推断出动作序列的最优分布。
在这里插入图片描述

模型

本文提出一个循环状态空间模型 (RSSM) 在隐空间进行前向预测，这一模型可被看作非线性Kalman滤波器或者序列VAE.

SSM

潜状态空间模型如下图b所示，下面所涉及的模型都是由神经网络参数化的高斯分布。
在这里插入图片描述

由于模型都是非线性的，因此无法直接计算出参数学习所需的状态后验。因此，本文使用编码器 $q\left(s_{1 : T} | o_{1 : T}, a_{1 : T} \right)=\prod_{t=1}^{T} q\left(s_{t} | s_{t-1}, a_{t-1}, o_{t}\right)$ 来从过去的观测和动作中近似推断状态后验，其中 $q\left(s_{t} | s_{t-1}, a_{t-1}, o_{t}\right)$ 是一个由“卷积网络+前向网络”参数化的对角高斯分布。
为使用编码器，本文建立了一个基于数据对数似然的变分下界 (Jensen 不等式)：
$\ln p\left(o_{1 : T} | a_{1 : T}\right) \triangleq \ln \int \prod_{t} p\left(s_{t} | s_{t-1}, a_{t-1}\right) p\left(o_{t} | s_{t}\right) d s_{1 : T}\geq \sum_{t=1}^{T}\left(\underbrace{\mathrm{E}_{q\left(s_{t} | o _{\leq t}, a_{<t}\right)}\left[\ln p\left(o_{t} | s_{t}\right)\right]}_{\text { reconstruction }} -\underbrace{\mathrm{E}_{q\left(s_{t-1} | o _{\leq t-1}, a_{<t-1}\right)}\left[\mathrm{KL}\left[q\left(s_{t} | o_{ \leq t}, a_{<t}\right) \| p\left(s_{t} | s_{t-1}, a_{t-1}\right)\right]\right]}_{\text { complexity }}\right).$