论文笔记:FeUdal Networks for Hierarchical Reinforcement Learning

0 abstract & introduction

这也是一篇分层强化学习的论文。分为两层。

  • Manager(上层):设置抽象的goal,这个goal传递给Worker
    • H-DQN不同,这个goal是由Manager自己学出来的(或者说,FUN不是从一个goal集合里面选goal)
      • ——>Manager和Worker之间是不传递梯度的。各自独立训练。
      • ——>Manager学习找到可以最大化外部奖励(extrinsic reward)的latent goal
  • Worker(下层):根据上层给定的goal,执行原子action

自上而下地生成目标,同时目标设定和目标实现是脱钩的(前者在Manager层,后者在Worker层),

这样的多层结构带来了几个好处

  • 应用于非常长时间尺度上的奖励回报(很长时间之后才知道自己是对是错)
  • 鼓励与Manager设定的不同目标相关的子策略的出现。 

1 模型部分

1.1 整体模型

论文中提出的模型叫 FeUdal Networks (FuNs),

  • f^{percept} 是一个CNN+一个全连接层
  • f^{Mspace}是一个全连接层
  • f^{Wrnn}是一个标准的LSTM
  • f^{Mrnn}是一个dilated LSTM,类比于dilated CNN,这里dilated LSTM的意思是,我喂入dilated LSTM的上一个隐层状态是r时间间隔之前的 h_t,g_t=LSTM(s_t,h_{t-r};\theta^{LSTM})
    • ——>这可以让隐藏状态h保留更长的时序信息
    • 在论文中,作者将r与 goal加和的数量c 设置为一样的(10)
  • h^M,h^W表示Manager和Worker的内部状态
  • Φ是一个没有bias的线性变换,把goal gt变换成 w_t \in R^k
    • 在这一步线性变换中,最后的c个goal会先累加起来,然后被线性变换Φ嵌入到向量ω中
      • ——>因为这样c个goal的“池化”操作,所以ω变换的很平滑
  • wt和Ut结合,生成策略\pi(各个原式动作的概率)
    • U_t \in R^{|a| \times k}是worker对于每个action的embedding

1.2 学习部分

        如果我们用Worker的梯度来训练Manager的输出g,虽然也能得到一个还可以的结果,但这样就导致Manager的输出g没有任何语义上的信息——>使得它只是模型的一个潜在变量。

        于是在这篇论文中,作者提出训练Manager,让他输出隐藏层的一个优势方向 w_t \in R^k。这样这个变量U_t \in R^{|a| \times k}和Worker各个action的embedding矩阵相乘后,就是各个action的“得分”U_t \omega_t \in R^{|a|},然后经过Softmax就是各个action的选取概率。

        记折扣奖励函数R_t=\sum_{k=0}^\infty \gamma^k r_{r+k+1},Manager的状态价值函数为V_t^M(x_t,\theta),d_{cos}(\alpha,\beta)=\frac{\alpha^T \beta}{|\alpha||\beta|}是两个向量α和β的余弦相似度。

        那么Manager的梯度为:

   

 其中A_t^M=R_t-V_t^M(x_t,\theta) 

        注意:虽然θ的改变最终也会影响到s_{t+c},但是出于简化的考虑,这篇paper在计算这一步梯度的时候,不考虑s和θ之间的依赖关系。

【advantaged actor-critic】

        goal的语义就是当前state在低维空间中所要改变的方向。worker的reward是前后两个step下state向量的变化方向与这个象征正确变化方向的goal的余弦相似度。

 而Worker的内在奖励为

在Feudal 强化学习中,来自较低层级的reward是被完全隐藏的。在这篇论文中,采用了一种soft的方法。Worker 的目标是最大化如下的奖励函数R_t+\alpha R_t^I,其中α是一个调节内部reward影响的超参数 【这里Worker和Manager的折扣因子γ可以是不一样的】

于是Worker的梯度为:

其中A_t^D=R_t+\alpha R_t^I-V_t^D(x_t;\theta) 

2 实验部分

Montezuma’s Revenge 游戏在下面的blog中 介绍过:论文笔记:Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic_UQI-LIUWJ的博客-CSDN博客

图b是 FuN 在第一个房间学习的子目标的可视化。

对于每个时间步,我们计算潜在状态 st 和相应的目标 gt。 然后我们找到d_{cos}(s_{t'}-s_t;g_t)最大化的未来状态。

bar越高,表示对应的状态越频繁地 让某个先前状态的目标最大化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值