【强化学习】分层强化学习

最新推荐文章于 2024-08-10 12:57:20 发布

Luminous_song

最新推荐文章于 2024-08-10 12:57:20 发布

阅读量859

点赞数 1

文章标签：算法人工智能强化学习

本文链接：https://blog.csdn.net/Luminous_song/article/details/130265338

版权

文章介绍了分层强化学习的核心思想，包括将复杂任务分解为子任务、SMDP的概念以及Option、HAMs和MAXQ等经典方法。这些方法旨在解决强化学习中的维度灾难问题，通过多层策略优化长期奖励。未来的研究方向关注于自动分层和大型应用。

摘要由CSDN通过智能技术生成

最近一直在做实验的一篇论文有一些些分层强化学习的思想，就来学一学真分层强化学习，虽然已经是三四年前流程的东西了，但也有了解的必要（要不不知道怎么入手了）

分层强化学习的主要思想是将一个复杂的任务分成很多个子任务，每个子任务逐步执行的过程。

分层强化学习

在强化学习中，由于环境的复杂程度逐渐提高，出现的维度困难，过高的维度使得策略的训练出现了很大的困难，于是出现了任务分层的思想。在多数文章中，任务被分成了2层，高层策略是去计划长时间的收益，而低层策略是为了直接与环境交互，达到高层策略所指定的目标。在形式上强化学习研究的是MDP问题，分层强化学习研究的是SMDP问题

三个难点：

如何训练低层策略与环境交互
如何定义高层策略的动作
在不过度收集数据的情况下，如何训练多个策略

SMDP问题

在马尔可夫决策过程中，下一个状态 $S_{t+1}$ 仅与当前状态 $S_t$ 有关，因此每次决策时不需要考虑历史状态，根据累计奖励构成的状态值函数和状态-行为值函数来学习最优策略。但对于多个动作在多个时间步骤完成或才能体现其真正价值的问题，MDP无法进行较好的优化处理，从而引入了半马尔可夫决策过程（SMDP）。SMDP依赖历史状态，在SMDP中，两个决策之间的时间间隔为T，T既可以是实数也可以是整数。状态s和时间τ的联合概率写作 $P (s', τ ∣ s, α)$ 。因此MDP与SMDP的区别也在于此，马尔可夫决策过程中, 选择一个动作后, agent会立刻根据状态转移方程P跳转到下一个状态, 而在半马尔可夫决策过程 (SMDP) 中, 当前状态到下一个状态的步数是个随机变量τ, 即在某个状态s下选择一个动作a后, 经过τ步才会以一个概率转移到下一个状态s’，SMDP的状态选择可以取决于前面的整个序列。

经典分层强化学习

Option

由Sutton提出的Option概念是对动作的一种抽象，一个option被定义为一个三元组， $<\pi,\beta,I>$ ， $\pi$ 表示此option中的策略， $\beta$ 表示终止条件， $\beta(s)$ 表示状态s有 $\beta(s)$ 的概率终止并退出此option，I表示option的初始状态集合，只有当状态 $s\in I$ 才会执行option，根据这个option中的策略，智能体选择一个动作或者一个option，直到option根据终止条件β终止，之后智能体开始选择下一option。需要注意的是智能体选择一个动作的情况也可以被称为一个option，这种情况被称作one-step option，当所有的option都是 one-step option时这个SMDP模型就退化为MDP。

为了使用option来解决分层强化学习问题，还需要定义一个更高级的策略 $μ : S \times O s$ O表示所有option的集合, 而Os表示状态s下可用的option的集合。

HAMs

HAMs的主要思想是根据人类的先验经历制定一些状态，agent在受限制的动作空间中进行状态转移。

一个HAM机是一个三元组， $N=(\mu,I,δ)$ ,μ是机器状态（machine state）有限集,I是从环境状态到机器状态的确定初始状态的随机函数,δ是概率转移方程。在HAM中机器状态一共有四种，Action状态下会执行一个MDP过程，call状态当前状态机被挂起，根据随机函数初始化下一个状态机，choice状态非确定地选择机器的下一个状态，stop状态停止当前状态机的活动，agent根据之前选择的动作进行状态转移并记录奖赏。Choice状态点是SMDP make decision的point，就像Options中的high-level一样，需要选择哪个option去执行接下来一段时间的action，这里Choice状态则是选择哪个FSM在接下来去与环境交互。