mdp框架_用于在线机器学习MDP的Python库

最新推荐文章于 2024-05-22 10:59:53 发布

weixin_39718173

最新推荐文章于 2024-05-22 10:59:53 发布

阅读量336

点赞数

文章标签： mdp框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39718173/article/details/111738344

版权

我试图在

Python中设计一个具有以下特征的迭代

markov decision process (MDP)代理：

>可观察的状态

>我通过保留一些状态空间来处理潜在的’未知’状态

用于回答DP进行的查询类型移动(t 1处的状态将为

识别先前的查询[如果先前的移动不是查询则为零]

以及嵌入的结果向量)这个空间用0s填充

一个固定的长度,以保持状态框架对齐,无论查询

回答(其数据长度可能不同)

>在所有州可能并不总是可用的行动

>奖励功能可能会随着时间而改变

>政策融合应该是增量的,只能按移动计算

因此,基本思想是MDP应该使用其当前概率模型在T处进行最佳猜测优化移动(并且由于其概率,它所做的移动预期随机性意味着可能的随机性),将T 1处的新输入状态与来自之前在T的举动并重新评估模型.收敛不能是永久性的,因为奖励可能会调整或可用的行动可能会改变.

我想知道的是,是否有任何当前的python库(最好是跨平台,因为我必须改变Windoze和Linux之间的环境)可以做这种事情(或者可以通过合适的自定义支持它,例如：派生类支持,允许重新定义说自己的奖励方法).

我发现有关在线移动MDP学习的信息相当稀少.我能找到的MDP的大多数使用似乎都集中在将整个策略作为预处理步骤来解决.

weixin_39718173

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mdp框架_用于在线机器学习MDP的Python库

我试图在Python中设计一个具有以下特征的迭代markov decision process (MDP)代理：>可观察的状态>我通过保留一些状态空间来处理潜在的’未知’状态用于回答DP进行的查询类型移动(t 1处的状态将为识别先前的查询[如果先前的移动不是查询则为零]以及嵌入的结果向量)这个空间用0s填充一个固定的长度,以保持状态框架对齐,无论查询回答(其数据长度可能不同)>在...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。