深度强化学习（三）马尔科夫决策过程

最新推荐文章于 2024-05-19 17:13:42 发布

@@老胡

最新推荐文章于 2024-05-19 17:13:42 发布

阅读量160

点赞数

分类专栏：深度强化学习文章标签：深度强化学习贝尔曼方程马尔科夫决策

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CodePlayMe/article/details/133273028

版权

深度强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

参考文章：https://blog.csdn.net/taka_is_beauty/article/details/88356375

序贯决策问题是针对随机动态系统的不确定性按照时间顺序给出最优策略。马尔科夫决策过程是解决序贯决策问题的经典方法。

马尔可夫过程MP

马尔科夫过程是指满足马尔科夫性的随机过程，马尔科夫过程的未来状态只与当前状态有关，与过去所有的状态都无关
马尔科夫过程可以用一个二元组（S，P）表示，其中S表示状态空间，由一组有限的状态组成；P是状态转移概率矩阵。

在这里插入图片描述

马尔科夫链MC

状态离散的马尔科夫过程被称为马尔科夫链，马尔科夫链在时间和状态上均离散。

状态转移概率矩阵

将一个状态转移到另一个状态的概率按照顺序组成的矩阵就是状态转移矩阵。

在这里插入图片描述
状态转移概率矩阵的性质：

转移概率的取值均大于或等于0。
转移概率矩阵的任意一行的概率和为0。

n步转移概率

n步转移概率描述的是从第m步的状态i转移到第m+n步的状态j的条件概率

在这里插入图片描述

马尔科夫链

对马尔科夫过程的抽样

在这里插入图片描述

马尔科夫奖励过程MRP

MRP=马尔科夫链+一个奖励函数，奖励函数是一个期望函数
马尔科夫奖励过程可以由一个四元组（S，P，R，γ）。

在这里插入图片描述

奖励机制

前面的马尔科夫链加上奖励机制后，可以获得一个奖励函数：
在这里插入图片描述

计算价值

概念定义

Horizon：同一个游戏环节或者轨迹的长度，由有限个步数决定的。
Return回报：从时间t到horizon的时间长度内，把奖励进行折扣所获得的收益。
这里有一个叠加系数γ，越往后的奖励的的折扣越多，因为我们更希望得到现有的奖励。
状态的价值：在某一个时刻t，在状态s下所期望的回报是：从这个状态开始的未来期望累积回报

在这里插入图片描述

折扣系数γ∈[0,1]
- 可以避免无穷的奖励
- 未来是不确定的
- 希望尽可能快的获得奖励

计算价值

在这里插入图片描述

推导贝尔曼方程

贝尔曼方程用来简化马尔科夫决策问题，贝尔曼方程表明，当前状态的的总体回报=当前状态的立即回报+未来后序状态的价值函数。

推导过程：
在这里插入图片描述

在这里插入图片描述

我们知道，不同的马尔科夫链得到的下一步的状态是不同的，这里是要把所有的下一步都累加。

贝尔曼方程实际应用

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（三）马尔科夫决策过程

Horizon：同一个游戏环节或者轨迹的长度，由有限个步数决定的。Return回报：从时间t到horizon的时间长度内，把奖励进行折扣所获得的收益。这里有一个叠加系数γ，越往后的奖励的的折扣越多，因为我们更希望得到现有的奖励。状态的价值：在某一个时刻t，在状态s下所期望的回报是：从这个状态开始的未来期望累积回报折扣系数γ∈[0,1]可以避免无穷的奖励未来是不确定的希望尽可能快的获得奖励。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。