原文 Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning - Sutton, Richard S. and Precup, Doina and Singh, Satinder
感觉基础不行,就拿这篇文章复习复习(水平有限,主要是翻译)
这篇论文太多了。老有种云里雾里的感觉,还是先看一下中文相关论文能更清楚其中的一些原理
主要idea
在SMDP的基础上,扩展了mdp中动作的概念,提出了option选项。本质上就是在一个连续的时间步上存在连续的动作。即所谓的时间抽象-option.
4. Interupting options
SMDP方法适用于选项,但只有当它们被视为不透明的不可分割的单元时才适用。更有趣和更强大的方法可以通过查看内部选项或改变它们的内部结构来实现,就像本文的其余部分所做的那样。在本节中,将迈出第一步,修改选项,使其更有用。可以根据SMDP分析选项,然后使用它们的mdp解释来更改它们并生成一个新的smdp。
特别是,在本节中,考虑在根据终止条件option自然终止之前中断option. 注意,将选项作为不可分割的单元来处理,就像SMDP方法一样,是不必要的限制。一旦选择了一个选项,这些方法就需要遵循它的策略,直到该选项终止为止。
假设时刻t正在执行选项o ,如果o是Markov,然后,可以继续与o,即
![1cc2089eecfea7d694840383ecd2030f.png](https://i-blog.csdnimg.cn/blog_migrate/8b5d62f28991e4e92188dfef90ce95c3.png)
如果中断的价值更高,那么允许中断并进行切换。
在下面的理论中,描述了一种新的行为方式,即遵循与原始策略
Theorem2 (Interruption ) 对于任意MDP,任意options组O,任意markov策略