原文 Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning - Sutton, Richard S. and Precup, Doina and Singh, Satinder
感觉基础不行,就拿这篇文章复习复习(水平有限,主要是翻译)
这篇论文太多了。老有种云里雾里的感觉,还是先看一下中文相关论文能更清楚其中的一些原理
主要idea
在SMDP的基础上,扩展了mdp中动作的概念,提出了option选项。本质上就是在一个连续的时间步上存在连续的动作。即所谓的时间抽象-option.
4. Interupting options
SMDP方法适用于选项,但只有当它们被视为不透明的不可分割的单元时才适用。更有趣和更强大的方法可以通过查看内部选项或改变它们的内部结构来实现,就像本文的其余部分所做的那样。在本节中,将迈出第一步,修改选项,使其更有用。可以根据SMDP分析选项,然后使用它们的mdp解释来更改它们并生成一个新的smdp。
特别是,在本节中,考虑在根据终止条件option自然终止之前中断option. 注意,将选项作为不可分割的单元来处理,就像SMDP方法一样,是不必要的限制。一旦选择了一个选项,这些方法就需要遵循它的策略,直到该选项终止为止。
假设时刻t正在执行选项o ,如果o是Markov,然后,可以继续与o,即
如果中断的价值更高,那么允许中断并进行切换。
在下面的理论中,描述了一种新的行为方式,即遵循与原始策略
Theorem2 (Interruption ) 对于任意MDP,任意options组O,任意markov策略
(1)
(2)如果来自状态S,则在S中启动µ’时遇到中断的历史的概率为0,则
证明略
5. Intra-option model learning
在这一部分中,介绍了一种新的学习模型的方法。
对所有的
SMDP模型学习方法的一个缺点是,只有当选项终止时,它们才会改进选项的模型。因此,它们不能用于不终止选项,一次只能应用于一个选项---一个正在执行的选项。对于马尔可夫选项,在选项终止之前,可以使用特殊的时差方法来了解选项的模型。我们将这些选项内的方法称为选项内的方法(intra option),因为它们从“在”选项中的一段经验中了解到了一个选项。选项内方法甚至可以用于在不执行该选项的情况下学习一个选项,只要做出与该选项一致的一些选择。选项内方法是离线策略学习方法的示例,因为他们了解一个策略的结果,而实际上是根据另一个策略进行操作的。内部选择方法可以用来同时从相同的经验中学习许多不同选项的模型。
正如存在值函数的Bellman方程一样,也有用于option模型的Bellman方程。考虑马尔可夫option模型o=(
如何将这些像Bellman一样的方程转化为学习模型的更新规则?首先,考虑到
其中,
6 Intra option value learning
现在来讨论option价值的intra-option 学习,以及option上的最优策略的学习。如果选项是半马尔可夫的,那么第3.2节中描述的SMDP方法也可能是唯一可行可行方法。在评估半马尔可夫option之前,必须先完成它。但是,如果选项是马尔可夫的,并且我们愿意查看它们的内部,那么我们可以考虑intra option的方法。就像模型学习一样,用于价值学习的选项内方法可能比SMDP方法更有效,因为它们从相同的经验中提取更多的训练样本。
例如,假设我们学习去逼近最优值函数
如果状态选项是马尔可夫的,并且在到达状态时执行,那么为状态选项对(state-option pair)的值引入新的符号是很方便的:
然后,我们可以编写类似贝尔曼的方程,将
其中,r是到达状态s'的立即奖励,现在考虑基于Bellman方程的学习方法,假设在状态
我们称为一步intra-option q学习的方法将此更新规则应用于与所采取的每个操作(action)一致的每个选项o。注意,算法可能依赖于选项更新的顺序,因为在每次更新中,U (s, o)依赖于其他选项o'的Q(s, o)的当前值。如果option的策略是确定的,那么上面一致性的概念就很清楚了,对于这种情况,我们可以证明收敛性。对随机options的扩展是当前研究的一个课题
Theoerem3 (Convergence of intra-option Q-learning)) 。对于任意的markov选项集合
7. Subgoals for learning options
很自然地,可以将选项看作是实现某种子目标,并调整每个选项的策略以更好地实现其子目标。例如,如果选项任务是Open the door,然后,随着时间的推移,很自然地调整其政策,使其在开门方面更加有效和高效,这可能使其更普遍地发挥作用。有可能有许多这样的子目标,并使用一种off策略学习方法(如q学习)来独立地了解它们。在本节中,我们将在options框架中开发这个概念,并通过学习rooms示例中的走廊选项来说明它。我们假设已经给出了子目标,但是没有解决子目标来源的更大问题
制定选项子目标的一种简单方法是将终端子目标值g(S)分配给状态G⊆S的子集中的每个状态s。这些值表明了在G中的每个状态中终止选项的可取程度。例如在迷宫问题中,要学习房间任务中的走廊选项,可以为目标走廊分配的子目标值+1,而另一个走廊和房间外的所有状态都可能分配一个0的子目标值。
找到实现这些最大值的选项(子目标的最优选项)将是一个定义良好的子任务。对于马尔可夫选项,这个子任务具有Bellman方程和用于学习和规划的方法,就像在原始任务中一样。例如,用于更新
8.conclusion
最后,虽然这篇论文强调了时间延伸的行为,但值得注意的是,这也可能意味着时间延伸的知觉。现在人们普遍认识到,行动与感知是密切相关的。看到房间里的物品,与其说是要给它们贴上标签或定位,不如说是要知道它们能提供什么样的行动机会:一扇门可以打开,一把椅子可以坐,一本书可以读,一个人可以聊天。如果将临时扩展的操作建模为选项,那么选项的模型可能很好地符合这些感知。假设一个机器人正在学习识别它的电池充电器。对它来说,最有用的概念是一组状态,它可以从这些状态成功地与充电器对接,这正是对接选项的模型将产生的结果。这些面向动作的概念很有吸引力,因为它们可以在没有外部监督的情况下由机器人进行测试和学习,正如在本文中所展示的那样。