我试图在
Python中设计一个具有以下特征的迭代
markov decision process (MDP)代理:
>可观察的状态
>我通过保留一些状态空间来处理潜在的’未知’状态
用于回答DP进行的查询类型移动(t 1处的状态将为
识别先前的查询[如果先前的移动不是查询则为零]
以及嵌入的结果向量)这个空间用0s填充
一个固定的长度,以保持状态框架对齐,无论查询
回答(其数据长度可能不同)
>在所有州可能并不总是可用的行动
>奖励功能可能会随着时间而改变
>政策融合应该是增量的,只能按移动计算
因此,基本思想是MDP应该使用其当前概率模型在T处进行最佳猜测优化移动(并且由于其概率,它所做的移动预期随机性意味着可能的随机性),将T 1处的新输入状态与来自之前在T的举动并重新评估模型.收敛不能是永久性的,因为奖励可能会调整或可用的行动可能会改变.
我想知道的是,是否有任何当前的python库(最好是跨平台,因为我必须改变Windoze和Linux之间的环境)可以做这种事情(或者可以通过合适的自定义支持它,例如:派生类支持,允许重新定义说自己的奖励方法).
我发现有关在线移动MDP学习的信息相当稀少.我能找到的MDP的大多数使用似乎都集中在将整个策略作为预处理步骤来解决.