论文笔记：FeUdal Networks for Hierarchical Reinforcement Learning

UQI-LIUWJ

已于 2022-06-19 23:43:22 修改

阅读量693

点赞数

分类专栏：强化学习文章标签：强化学习

于 2022-06-19 23:39:29 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/125361141

版权

强化学习专栏收录该内容

58 篇文章 57 订阅

订阅专栏

0 abstract & introduction

这也是一篇分层强化学习的论文。分为两层。

Manager（上层）：设置抽象的goal，这个goal传递给Worker
和H-DQN不同，这个goal是由Manager自己学出来的（或者说，FUN不是从一个goal集合里面选goal）
——>Manager和Worker之间是不传递梯度的。各自独立训练。
——>Manager学习找到可以最大化外部奖励（extrinsic reward）的latent goal
Worker（下层）：根据上层给定的goal，执行原子action

自上而下地生成目标，同时目标设定和目标实现是脱钩的（前者在Manager层，后者在Worker层），

这样的多层结构带来了几个好处

应用于非常长时间尺度上的奖励回报（很长时间之后才知道自己是对是错）
鼓励与Manager设定的不同目标相关的子策略的出现。

1 模型部分

1.1 整体模型

论文中提出的模型叫 FeUdal Networks (FuNs)，

$f^{percept}$ 是一个CNN+一个全连接层
$f^{Mspace}$ 是一个全连接层
$f^{Wrnn}$ 是一个标准的LSTM
是一个dilated LSTM，类比于dilated CNN，这里dilated LSTM的意思是，我喂入dilated LSTM的上一个隐层状态是r时间间隔之前的
- ——>这可以让隐藏状态h保留更长的时序信息
- 在论文中，作者将r与 goal加和的数量c 设置为一样的（10）
$h^M,h^W$ 表示Manager和Worker的内部状态
Φ是一个没有bias的线性变换，把goal gt变换成
- 在这一步线性变换中，最后的c个goal会先累加起来，然后被线性变换Φ嵌入到向量ω中
  - ——>因为这样c个goal的“池化”操作，所以ω变换的很平滑
wt和Ut结合，生成策略（各个原式动作的概率）
- $U_t \in R^{|a| \times k}$ 是worker对于每个action的embedding

1.2 学习部分

如果我们用Worker的梯度来训练Manager的输出g，虽然也能得到一个还可以的结果，但这样就导致Manager的输出g没有任何语义上的信息——>使得它只是模型的一个潜在变量。

于是在这篇论文中，作者提出训练Manager，让他输出隐藏层的一个优势方向 $w_t \in R^k$ 。这样这个变量 $U_t \in R^{|a| \times k}$ 和Worker各个action的embedding矩阵相乘后，就是各个action的“得分” $U_t \omega_t \in R^{|a|}$ ，然后经过Softmax就是各个action的选取概率。

记折扣奖励函数 $R_t=\sum_{k=0}^\infty \gamma^k r_{r+k+1}$ ,Manager的状态价值函数为 $V_t^M(x_t,\theta)$ , $d_{cos}(\alpha,\beta)=\frac{\alpha^T \beta}{|\alpha||\beta|}$ 是两个向量α和β的余弦相似度。

那么Manager的梯度为：

其中 $A_t^M=R_t-V_t^M(x_t,\theta)$

注意：虽然θ的改变最终也会影响到 $s_{t+c}$ ，但是出于简化的考虑，这篇paper在计算这一步梯度的时候，不考虑s和θ之间的依赖关系。

【advantaged actor-critic】

goal的语义就是当前state在低维空间中所要改变的方向。worker的reward是前后两个step下state向量的变化方向与这个象征正确变化方向的goal的余弦相似度。

而Worker的内在奖励为

在Feudal 强化学习中，来自较低层级的reward是被完全隐藏的。在这篇论文中，采用了一种soft的方法。Worker 的目标是最大化如下的奖励函数 $R_t+\alpha R_t^I$ ，其中α是一个调节内部reward影响的超参数【这里Worker和Manager的折扣因子γ可以是不一样的】

于是Worker的梯度为：

其中 $A_t^D=R_t+\alpha R_t^I-V_t^D(x_t;\theta)$

2 实验部分

Montezuma’s Revenge 游戏在下面的blog中介绍过：论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic_UQI-LIUWJ的博客-CSDN博客

图b是 FuN 在第一个房间学习的子目标的可视化。

对于每个时间步，我们计算潜在状态 st 和相应的目标 gt。然后我们找到 $d_{cos}(s_{t'}-s_t;g_t)$ 最大化的未来状态。

bar越高，表示对应的状态越频繁地让某个先前状态的目标最大化。

UQI-LIUWJ

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文笔记：FeUdal Networks for Hierarchical Reinforcement Learning

论文中提出的模型叫 FeUdal Networks (FuNs)，如果我们用Worker的梯度来训练Manager的输出g，虽然也能得到一个还可以的结果，但这样就导致Manager的输出g没有任何语义上的信息——>使得它只是模型的一个潜在变量。于是在这篇论文中，作者提出训练Manager，让他输出隐藏层的一个优势方向。这样这个变量和Worker各个action的embedding矩阵相乘后，就是各个action的“得分”，然后经过Softmax就是各个action的选取概率
复制链接

扫一扫