mdp框架_用于在线机器学习MDP的Python库

我试图在

Python中设计一个具有以下特征的迭代

markov decision process (MDP)代理:

>可观察的状态

>我通过保留一些状态空间来处理潜在的’未知’状态

用于回答DP进行的查询类型移动(t 1处的状态将为

识别先前的查询[如果先前的移动不是查询则为零]

以及嵌入的结果向量)这个空间用0s填充

一个固定的长度,以保持状态框架对齐,无论查询

回答(其数据长度可能不同)

>在所有州可能并不总是可用的行动

>奖励功能可能会随着时间而改变

>政策融合应该是增量的,只能按移动计算

因此,基本思想是MDP应该使用其当前概率模型在T处进行最佳猜测优化移动(并且由于其概率,它所做的移动预期随机性意味着可能的随机性),将T 1处的新输入状态与来自之前在T的举动并重新评估模型.收敛不能是永久性的,因为奖励可能会调整或可用的行动可能会改变.

我想知道的是,是否有任何当前的python库(最好是跨平台,因为我必须改变Windoze和Linux之间的环境)可以做这种事情(或者可以通过合适的自定义支持它,例如:派生类支持,允许重新定义说自己的奖励方法).

我发现有关在线移动MDP学习的信息相当稀少.我能找到的MDP的大多数使用似乎都集中在将整个策略作为预处理步骤来解决.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值