react如何获取option的下标和值_option 方法笔记3

本文深入探讨了React中Option组件的使用,包括如何获取Option的下标和值,以及如何中断和学习Option。文章介绍了Option在状态管理和时间抽象中的作用,讨论了中断Option的可能性以及在不终止的情况下学习Option的模型。此外,还提到了在Option内学习模型和价值的方法,以及如何将Option视为实现子目标的手段。
摘要由CSDN通过智能技术生成

原文 Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning - Sutton, Richard S. and Precup, Doina and Singh, Satinder

感觉基础不行,就拿这篇文章复习复习(水平有限,主要是翻译)

这篇论文太多了。老有种云里雾里的感觉,还是先看一下中文相关论文能更清楚其中的一些原理

主要idea

在SMDP的基础上,扩展了mdp中动作的概念,提出了option选项。本质上就是在一个连续的时间步上存在连续的动作。即所谓的时间抽象-option.

4. Interupting options

SMDP方法适用于选项,但只有当它们被视为不透明的不可分割的单元时才适用。更有趣和更强大的方法可以通过查看内部选项或改变它们的内部结构来实现,就像本文的其余部分所做的那样。在本节中,将迈出第一步,修改选项,使其更有用。可以根据SMDP分析选项,然后使用它们的mdp解释来更改它们并生成一个新的smdp。

特别是,在本节中,考虑在根据终止条件option自然终止之前中断option. 注意,将选项作为不可分割的单元来处理,就像SMDP方法一样,是不必要的限制。一旦选择了一个选项,这些方法就需要遵循它的策略,直到该选项终止为止。

假设时刻t正在执行选项o ,如果o是Markov,然后,可以继续与o,即

的值与中断o的值比较,并根据
选择一个新的选项,策略u满足

1cc2089eecfea7d694840383ecd2030f.png

如果中断的价值更高,那么允许中断并进行切换。

在下面的理论中,描述了一种新的行为方式,即遵循与原始策略

相同的策略
,但对新的一组选项;对于所有的s∈S,
。每个新选项O'都与相应的旧选项o相同,只是在切换比继续切换更好的时候,它就终止了。称u'为u 的 一个中断策略 。

Theorem2 (Interruption ) 对于任意MDP,任意options组O,任意markov策略

,定义一组新的选项,O',在这两个选项集之间进行一对一的映射,如下所示:每一个选项
,定义了一个对应的
,其中β'=β,但对于任何以状态s结尾且
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值