【ICLR2020】Dream to Control：Learning Behaviors by Latent Imagination

最新推荐文章于 2025-04-02 01:00:00 发布

小小何先生

最新推荐文章于 2025-04-02 01:00:00 发布

阅读量904

点赞数 2

分类专栏：顶会期刊论文阅读笔记

本文链接：https://blog.csdn.net/weixin_39059031/article/details/111941584

版权

顶会期刊论文阅读笔记专栏收录该内容

37 篇文章

订阅专栏

论文《DreamtoControl：LearningBehaviorsbyLatentImagination》提出了一种新的强化学习方法——Dreamer。该方法通过学习环境模型，在纯隐状态空间中进行想象规划，解决了智能体学习复杂行为的挑战。它采用了一个基于梯度的actor-critic算法，通过预测未来奖励和状态转移来规划多步行为。在DeepMindControlSuite上的实验表明，Dreamer在数据效率、计算时间和性能上优于其他基于模型和无模型的方法。作者DanijarHafner是多伦多大学的博士生，专注于基于模型的强化学习研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

论文题目：Dream to Control：Learning Behaviors by Latent Imagination

所解决的问题？

先学一个环境模型，所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了，作者提出了一种方法，dreamer，在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

强化学习是需要学习环境的表征的，或者称之为对于环境的理解，从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

深度学习所做的表征就是在提取有效信息，因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划，往往能够支持更高效的方式去做规划，或者并行规划。

通常的强化学习方法是学习一个参数化的策略，去最大化期望奖励，或者通过在线规划的方式，去学习一个固定horizon的最大奖励来实现规划，像planet那样，虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias，但是并没有去提供对未来长期的期望规划。

所采用的方法？

作者提出了一种基于梯度的，在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习，所以能够获得多步的累计奖励，进行多步长期的学习规划。

主要步骤可以分为三大部分：

从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型 $p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right)$ ，转移模型 $q\left(s_{t} \mid s_{t-1}, a_{t-1}\right)$ 和奖励模型 $q\left(r_{t} \mid s_{t}\right)$ 。
学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories。

从一个真实的模型状态 $s_{t}$ 开始往后想象，基于转移模型预测轨迹 $s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right)$ ，预测奖励 $r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right)$ ，基于所学习的策略 $a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right)$ ，以最大化期望奖励 $\mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right)$ 为目标更新动作模型 $a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right)$ 和值模型 $v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right)$ 。

在这里还需要注意作者所提出来的这个新型的actor-critic方法：

actor model

动作模型输出的是一个tanh-transformed Gaussian，

$a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I})$

动作模型的更新公式为：

$\max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right)$

value model

$\mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right)$

上述这个奖励模型就是单纯的奖励累计，并没有考虑对未来的期望收益，这种奖励可以不用值函数。

$\mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H)$

$V_{N}^{k}$ 能够估计超过 $k$ 步之后的奖励。

$\mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right)$

dreamer使用的是 $\mathrm{V}_{\lambda}$ ，一种指数加权平均的奖励，用于平衡 $k$ 步不同的偏差和方差。

值模型的更新公式为：

$\left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right)$