（详细）分层强化学习之HIRO

最新推荐文章于 2024-08-07 19:51:02 发布

薛定谔的炼丹炉！

最新推荐文章于 2024-08-07 19:51:02 发布

阅读量1.2k

点赞数 1

分类专栏：强化学习文章标签：深度学习人工智能

原文链接：https://blog.csdn.net/sinat_37422398/article/details/113085165

版权

强化学习专栏收录该内容

25 篇文章 5 订阅

订阅专栏

本文介绍了分层强化学习（Hierarchical Reinforcement Learning, HRL）的概念，强调它通过将大问题分解为小任务，从而在强化学习中提供时间与状态抽象，提高样本效率和泛化能力。HRL的关键组件是选项框架，其中低层策略生成动作并与环境交互，而高层策略则决定低层策略的目标。文章探讨了如何训练这些策略以及HRL面临的挑战，并引用了相关研究进展。

摘要由CSDN通过智能技术生成

原文链接：https://blog.csdn.net/sinat_37422398/article/details/113085165

在这里插入图片描述

   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> 分层的思想在今年已经延伸到机器学习的各个领域中去，包括NLP 以及很多representataion learning。<br> <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
  
  
   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> 近些年，分层强化学习被看作更加复杂环境下的强化学习算法，其主要思想就是将一个大的问题进行分解，思路是依靠一个上层的policy去将整个任务进行分解，然后利用下层的policy去逐步执行。</p>

Code: https://github.com/tensorflow/models/tree/master/research/efficient-hrl

相关资料：
总结性博文：
The Promise of Hierarchical Reinforcement Learning
中文版强化学习遭遇瓶颈！分层RL将成为突破的希望

研究脉络：
2017年 ICML文章提出封建网络FeUdal networks FeUdal networks for hierarchical reinforcement learning
2018年NIPS文章 HIRO Data-efﬁcient hierarchical reinforcement learning
2018 AAAI 的文章 Learning Representations in Model-Free Hierarchical Reinforcement Learning

强化学习

HRL旨在通过分解学习的特定部分来减轻学习的复杂性。与分层强化学习的优势相比，强化学习的主要弱点可以被分解如下：

样本效率：数据生成常常是瓶颈，当前的RL方法的数据效率较低。使用HRL，子任务和抽象动作可以用于同一域上的不同任务（迁移学习）。
扩展：将传统的RL方法应用于具有大的动作或状态空间的问题是不可行的（维数灾难）。HRL的目标是将大问题分解成更小的问题（高效学习）。
泛化：训练有素的代理可以解决复杂的任务，但是如果我们希望他们将经验迁移到新的（甚至相似的）环境中，即使最先进的RL算法也会失败（由于过度专业化而导致脆性）。
抽象：状态和时间抽象可以简化问题，因为子任务可以通过RL方法（更好的知识表示）得到有效解决。

分层强化学习

强化学习问题存在严重的扩展问题。而分层强化学习（HRL）通过学习在不同程度的时间抽象上进行操作，可以解决这些问题。

为了真正理解学习算法中层次结构的必要性，并且在RL和HRL之间建立联系，我们需要记住我们要解决的问题：马尔科夫决策过程（MDP）。HRL方法学习的策略由多层组成，每层负责在不同程度的时间抽象中进行控制。事实上，HRL的关键创新是扩展可用动作集，使得代理现在不仅可以选择执行基本动作，而且还可以执行宏动作，即低级动作的序列。因此，随着时间的推移，我们必须考虑到决策时刻之间所花费的时间。幸运的是，MDP规划和学习算法可以很容易地扩展以适应HRL。

在这里插入图片描述

分层的优点

时间上的抽象（Temporal abstraction） ：可以考虑持续一段时间的策略
迁移/重用性（Transfer/Reusability） ：把大问题分解为小问题后，小问题学习到的解决方法可以迁移到别的问题之上
有效性/有意义（powerful/meaningful）-状态上的抽象（state abstraction） ：当前的状态中与所解决问题无关的状态不会被关注

Option Framework

   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> HRL 中最著名的应该就是选项框架了。<br> <img src="https://img-blog.csdnimg.cn/20210125172914331.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzM3NDIyMzk4,size_16,color_FFFFFF,t_70" alt="在这里插入图片描述"><br> 选项是一个由三个元素构成的元组组 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    o
   
   
    =
   
   
    &lt;
   
   
    
     I
    
    
     o
    
   
   
    ,
   
   
    
     π
    
    
     o
    
   
   
    ,
   
   
    
     β
    
    
     o
    
   
   
    &gt;
   
  
  
   o=&lt;I_o,π_o,β_o&gt;
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">o</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">=</span></span><span class="base"><span class="strut" style="height: 0.5782em; vertical-align: -0.0391em;"></span><span class="mrel">&lt;</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.07847em;">I</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">π</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.05278em;">β</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.05278em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">&gt;</span></span></span></span></span>：</p>

      I
     
     
      o
     
    
   
   
    I_o
   
  
 </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.07847em;">I</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>：起始状态。I ⊆ S 表示option的初始状态</li><li><span class="katex--inline"><span class="katex"><span class="katex-mathml">
 
  
   
    
     
      π
     
     
      o
     
    
   
   
    π_o
   
  
 </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">π</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>：<span class="katex--inline"><span class="katex"><span class="katex-mathml">
 
  
   
    
     π
    
    
     :
    
    
     S
    
    
     ×
    
    
     A
    
    
     →
    
    
     [
    
    
     0
    
    
     ,
    
    
     1
    
    
     ]
    
   
   
    \pi:S × A → [0, 1]
   
  
 </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">π</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">:</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.76666em; vertical-align: -0.08333em;"></span><span class="mord mathdefault" style="margin-right: 0.05764em;">S</span><span class="mspace" style="margin-right: 0.222222em;"></span><span class="mbin">×</span><span class="mspace" style="margin-right: 0.222222em;"></span></span><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault">A</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">[</span><span class="mord">0</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord">1</span><span class="mclose">]</span></span></span></span></span> 代表策略, 是一个基于状态空间（State space）和动作空间（Action space）的概率分布函数</li><li><span class="katex--inline"><span class="katex"><span class="katex-mathml">
 
  
   
    
     
      β
     
     
      o
     
    
   
   
    β_o
   
  
 </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.05278em;">β</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.05278em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">o</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>：终止条件。 β：S → [0, 1] 是终止条件，β(s)表示状态 s 有β(s)的概率终止并退出当前option。</li></ul>

在这里插入图片描述
理解动作原语和选项之间的区别

   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> 一个人可以用上面的例子来理解这个框架的思想，其中选项可以概括为“去走廊”，动作（或原始选项）包括“向北、南、西或东”。选项可以被认为是在更高抽象程层次上的个体动作，因此可以抽象成技能。</p>

底层是一个次级策略：

进行环境观测
输出动作
运行到终止

顶层是用于选择option的高级策略（policy-over-option）：

进行环境观测
输出子策略
运行到终止

#################################################################

低层策略生成的action 与环境直接交互，高层策略在更长的时间步上进行学习。

分层强化学习也存在着3个重要的难点：

How should one train the lower-level policy to induce semantically distinct behavior? 怎么训练低层策略来感应语义存在不同的行为。
How should the high-level policy actions be defined?怎么定义高层策略的动作
How should the multiple policies be trained without incurring an inordinate amount of experience collection?怎么训练多个策略，在不过度收集数据的情况下。

本文 Contribution:
1）成功地将 off-policy 应用在 HRL 的 high-level policy 中。
2）提出了一种 off-policy correction 方法，用于解决 off-policy 在HRL中出现的不稳定问题。
3）由于 off-policy 的引入，提高了 HRL 的数据利用率。

框架

在这里插入图片描述

high-level action (or goal)

     g
    
    
     t
    
   
   
    ∈
   
   
    
     R
    
    
     
      d
     
     
      s
     
    
   
  
  
   g_t \in \mathbb{R}^{d_s}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.73354em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">∈</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.849108em; vertical-align: 0em;"></span><span class="mord"><span class="mord"><span class="mord mathbb">R</span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height: 0.849108em;"><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.164543em;"><span class="" style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span class="pstrut" style="height: 2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight">s</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.143em;"><span class=""></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></h4>

   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> higher-level policy 观察状态，并且通过公它的 policy 重采样 生成一个high-level action (or goal) <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     g
    
    
     t
    
   
   
    ∈
   
   
    
     R
    
    
     
      d
     
     
      s
     
    
   
  
  
   g_t \in \mathbb{R}^{d_s}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.73354em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">∈</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.849108em; vertical-align: 0em;"></span><span class="mord"><span class="mord"><span class="mord mathbb">R</span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height: 0.849108em;"><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight">d</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.164543em;"><span class="" style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span class="pstrut" style="height: 2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mathdefault mtight">s</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.143em;"><span class=""></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>，<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     g
    
    
     t
    
   
   
    ∽
   
   
    
     μ
    
    
     
      h
     
     
      i
     
    
   
  
  
   g_t \backsim \mu^{hi}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.625em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel amsrm">∽</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1.04355em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault">μ</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height: 0.849108em;"><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">h</span><span class="mord mathdefault mtight">i</span></span></span></span></span></span></span></span></span></span></span></span></span> （注意，这里说明子目标不是手工设置的，而是高层policy生成的抽象目标），其中 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    t
   
   
    ≡
   
   
    0
   
   
    (
   
   
    m
   
   
    o
   
   
    d
   
   
    &nbsp;
   
   
    c
   
   
    )
   
  
  
   t \equiv 0(mod \ c)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.61508em; vertical-align: 0em;"></span><span class="mord mathdefault">t</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">≡</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord">0</span><span class="mopen">(</span><span class="mord mathdefault">m</span><span class="mord mathdefault">o</span><span class="mord mathdefault">d</span><span class="mspace">&nbsp;</span><span class="mord mathdefault">c</span><span class="mclose">)</span></span></span></span></span>，或者使用一个固定的目标转移函数 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     g
    
    
     t
    
   
   
    =
   
   
    h
   
   
    (
   
   
    
     s
    
    
     
      t
     
     
      −
     
     
      1
     
    
   
   
    ,
   
   
    
     g
    
    
     
      t
     
     
      −
     
     
      1
     
    
   
   
    ,
   
   
    
     s
    
    
     t
    
   
   
    )
   
  
  
   g_t = h(s_{t-1},g_{t-1},s_t)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.625em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault">h</span><span class="mopen">(</span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.301108em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">−</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.208331em;"><span class=""></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.301108em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">t</span><span class="mbin mtight">−</span><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.208331em;"><span class=""></span></span></span></span></span></span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mord mathdefault">s</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s"></span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mclose">)</span></span></span></span></span> 生成（最简单的情况下可以是 a pass-through function ）。<br> <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
  
  
   \quad
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0em; vertical-align: 0em;"></span><span class="mspace" style="margin-right: 1em;"></span></span></span></span></span> temporal abstraction：higher-level policy <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     μ
    
    
     
      h
     
     
      i
     
    
   
  
  
   \mu^{hi}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1.04355em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault">μ</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height: 0.849108em;"><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">h</span><span class="mord mathdefault mtight">i</span></span></span></span></span></span></span></span></span></span></span></span></span> 每 c 步更新一次，从而 provides temporal abstraction。<br> <img src="https://img-blog.csdnimg.cn/20210124204810780.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzM3NDIyMzk4,size_16,color_FFFFFF,t_70" alt="在这里插入图片描述"><br> <img src="https://img-blog.csdnimg.cn/20210124204810907.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzM3NDIyMzk4,size_16,color_FFFFFF,t_70" alt="在这里插入图片描述"><br> <img src="https://img-blog.csdnimg.cn/20210124204810987.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NpbmF0XzM3NDIyMzk4,size_16,color_FFFFFF,t_70" alt="在这里插入图片描述"></p>

以下摘自：
强化学习最前沿之Hierarchical reinforcement learning（一）_Dr.Zee的博客-CSDN博客
在这里插入图片描述