强化学习(尔) - 马尔科夫决策过程

最新推荐文章于 2024-09-01 17:39:26 发布

LearningXX

最新推荐文章于 2024-09-01 17:39:26 发布

阅读量382

点赞数

马尔科夫决策过程

Makov的定义

下一个状态的产生只和当前的状态有关，即：
在这里插入图片描述
本来直观上讲，下一个状态的产生跟所有历史状态是有关的，也就是等式右边所示。但是Markov的定义则是忽略掉历史信息，只保留当前状态的信息来预测下一个状态，这就叫Markov。

状态转移概率

对于一个具体的状态s和它的下一个状态s’ ，它们的状态转移概率(就是从s转移到s’的概率)定义为：
在这里插入图片描述
假如总共有n种状态可以选择。那么状态转移矩阵P定义为：

矩阵中第 i 行表示：当前状态为 $i i i$ $q_{*} (s, a)$ ：在所有的策略中产生的状态动作价值函数中最大的那个函数。

贝尔曼最优方程
在这里插入图片描述
v 描述了处于一个状态的长期最优化价值，即在这个状态下考虑到所有可能发生的后续动作，并且都挑选最优的动作来执行的情况下，这个状态的价值
q 描述了处于一个状态并执行某个动作后所带来的长期最优价值，即在这个状态下执行某一特定动作后，考虑再之后所有可能处于的状态并且在这些状态下总是选取最优动作来执行所带来的长期价值。

由上面的公式可以，要求最优值需要一步步迭代计算，是一个递归过程。具体在代码中怎么计算，就要使用到价值迭代、策略迭代、Q-learning、Sarsa等。

附：参考马尔科夫决策过程

        </div>

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。