react如何获取option的下标和值_option 方法笔记3

最新推荐文章于 2024-01-18 11:29:54 发布

马克love

最新推荐文章于 2024-01-18 11:29:54 发布

阅读量843

点赞数

文章标签： react如何获取option的下标和值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35826493/article/details/112275770

版权

本文深入探讨了React中Option组件的使用，包括如何获取Option的下标和值，以及如何中断和学习Option。文章介绍了Option在状态管理和时间抽象中的作用，讨论了中断Option的可能性以及在不终止的情况下学习Option的模型。此外，还提到了在Option内学习模型和价值的方法，以及如何将Option视为实现子目标的手段。

摘要由CSDN通过智能技术生成

原文 Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning - Sutton, Richard S. and Precup, Doina and Singh, Satinder

感觉基础不行，就拿这篇文章复习复习（水平有限，主要是翻译）

这篇论文太多了。老有种云里雾里的感觉，还是先看一下中文相关论文能更清楚其中的一些原理

主要idea

在SMDP的基础上，扩展了mdp中动作的概念，提出了option选项。本质上就是在一个连续的时间步上存在连续的动作。即所谓的时间抽象-option.

4. Interupting options

SMDP方法适用于选项，但只有当它们被视为不透明的不可分割的单元时才适用。更有趣和更强大的方法可以通过查看内部选项或改变它们的内部结构来实现，就像本文的其余部分所做的那样。在本节中，将迈出第一步，修改选项，使其更有用。可以根据SMDP分析选项，然后使用它们的mdp解释来更改它们并生成一个新的smdp。

特别是，在本节中，考虑在根据终止条件option自然终止之前中断option. 注意，将选项作为不可分割的单元来处理，就像SMDP方法一样，是不必要的限制。一旦选择了一个选项，这些方法就需要遵循它的策略，直到该选项终止为止。

假设时刻t正在执行选项o ，如果o是Markov，然后，可以继续与o，即

的值与中断o的值比较，并根据

选择一个新的选项，策略u满足

如果中断的价值更高，那么允许中断并进行切换。

在下面的理论中，描述了一种新的行为方式，即遵循与原始策略

相同的策略

，但对新的一组选项；对于所有的s∈S，

。每个新选项O'都与相应的旧选项o相同，只是在切换比继续切换更好的时候，它就终止了。称u'为u 的一个中断策略。

Theorem2 (Interruption ) 对于任意MDP，任意options组O，任意markov策略

,定义一组新的选项，O'，在这两个选项集之间进行一对一的映射，如下所示：每一个选项

,定义了一个对应的

,其中β'=β，但对于任何以状态s结尾且

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
react如何获取option的下标和值_option 方法笔记3

原文 Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning - Sutton, Richard S. and Precup, Doina and Singh, Satinder感觉基础不行，就拿这篇文章复习复习（水平有限，主要是翻译）这篇论文太多了。老有种云里雾里的感觉，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。