《强化学习》马尔科夫MDP（二）

最新推荐文章于 2022-09-11 18:54:31 发布

小小_星辰

最新推荐文章于 2022-09-11 18:54:31 发布

阅读量330

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42594874/article/details/103811693

版权

⽆数学者们通过⼏⼗年不断地努⼒和探索，提出了⼀套可以解决⼤部分强化学习问题的框架，这个框架就是⻢尔科夫决策过程，简称 MDP

马尔科夫性
系统的下一个状态s‘仅与当前状态s有关，与以前的状态无关
马尔科夫过程
是一个状态和概率组成的元组（S，P），S是有限状态集合，P是状态转移概率（矩阵），不存在东顾总和奖励。
马尔科夫决策过程
马尔科夫过程将动作（策略）和回报考虑在内成为马尔科夫决策过程，由元组（S，A，P，R，r）描述，S为有限的状态集，A为有限的动作集，P为状态转移概率，R为回报函数，r为折扣因子（用来计算累计回报）

强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略π（状态到动作的映射），指给定状态s时，动作集上的一个分布

给定策略π时，可以计算累计回报

强化学习的策略往往是随机策略，假设初始状态s1出发，有很多中序列可能，所以累积回报也是随机的

1）状态值函数
状态值函数和策略π时相对应的，策略π决定了累积回报G的状态分布。当智能体采⽤策略π时，累积回报服从⼀个分布，累积回报在状态s处的期望值定义为状态-值函数

贝尔曼方程为

B为值函数的计算公式

C为状态行为值函数的计算公式

联合得到最终的值函数求解公式

最优状态值函数为

2）状态-行为值函数为

贝尔曼方程为

同理得到状态行为值函数

最优状态-行为值函数为

计算状态值函数的⽬的是为了构建学习算法从数据中得到最优策略
每个策略对应着⼀个状态值函数，最优策略⾃然对应着最优状态值函数
已知最优状态行为值函数，最优策略也可以直接最大化状态行为值求得

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。