【HRL】基于选项/技巧和基于目标条件约束有什么区别

分层强化学习(HRL)通过对策略或任务进行层次划分,学习多层的策略,可以有效解决在奖励稀疏环境下的长期信誉分配问题。并且得益于分层结构,分层强化学习方法具有较强的可拓展性。

目前的分层强化学习可以分为两类:

  • 基于选项/技巧
  • 基于目标条件约束

在学习的过程中,越学习越不太了解这两种有什么区别?分别是什么意思?所以写下这篇博客用来介绍两类方法的主要思想和代表性方法。

1.1基于选项框架的分层强化学习

选项,即option,可以理解为“在某种场合下选择做某事”。

基于option框架的分层强化学习方法相当于把任务划分为多个子任务,不同层次的策略在不同的时间尺度上对任务进行抽象,智能体的上层策略负责根据当前的观测状态选择应当执行哪个option,而下层策略即是各个 option中的子策略,负责决策当前的动作、实际地与环境交互。

相关论文学习:The Option-Critic Architecture阅读笔记-CSDN博客

1.2基于技巧探索的分层强化学习

 此方法是基于option方法的进一步发展。通常来说,skill为一个隐变量,智能体的上层策略根据当前观察状态选择 skill,下层策略将上层选择的 skill 和自身的观察作为策略输入进而输出与环境交互的动作。

2.基于目标条件约束的分层强化学习

基于目标条件约束的分层强化学习方法是将任务的状态转移过程划分为多个阶段,将智能体从初始状态执行到最终目标状态这一过程划分为多个子目标状态,上层策略决定接下来若干个时间步后应该到达的子目标状态,下层策略负责与环境进行交互完成上层所制定的目标。

比较出名的方法是Feudal RL。

3.总结

实际上两种方法没有本质上的区别。

option是一种具有时序抽象的策略,是抽象出来的上层策略,是策略层面上的定义;而goal则是目标层面上的定义,即智能体需要达到什么目标,每一层的不同目标同样对应着一个不同的子策略,这里的子策略其实就是option。

举个例子,做菜是一个大工程,包含洗菜、切菜、炒菜等步骤。洗菜、切菜、炒菜就是option,而洗干净、切整齐、炒熟是goal。

上层控制器在较长的时间跨度里选择option/goal,下层控制器在较短时间跨度里根据option/goal选择action。

在option-critic论文中,option并没有明确的含义,只是规定了option的数量。因此上层控制器和下层控制器的训练准则都是使环境奖励尽可能大,两层控制器之阿金没有任何内部奖励传递,整个网络采取的是端到端的方式进行训练。

结合我看的几篇基于goal的分层强化学习论文来看,goal的含义很具体,有人为设定好的也有状态空间中有利的转移方向。上层控制器的训练准则是让输出的goal尽可能符合较好的状态/状态转移方向,而下层控制器的训练准则是让环境状态转移尽可能满足目标,所以上层控制器会传递给下层控制器一个内部奖励驱动下层控制器完成目标,上层控制器依据外部环境奖励进行训练,所以上下层控制器是分开训练的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值