强化学习_02_DataWhale马尔可夫决策过程习题

最新推荐文章于 2024-02-21 14:41:07 发布

Scc_hy

最新推荐文章于 2024-02-21 14:41:07 发布

阅读量939

点赞数

分类专栏：强化学习文章标签：强化学习马尔科夫决策过程

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.csdn.net/Scc_hy/article/details/120910912

版权

强化学习专栏收录该内容

24 篇文章 8 订阅

订阅专栏

本文探讨了马尔可夫奖励过程中的折扣因子作用，解释了矩阵形式贝尔曼方程解析解的难度，并介绍了计算贝尔曼方程的常见方法。此外，阐述了马尔可夫奖励过程与马尔可夫决策过程的区别，以及如何在马尔可夫决策过程中寻找最优策略。

摘要由CSDN通过智能技术生成

习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子（discount factor）？

马尔可夫过程是带环的，需要避免无穷的奖励
我们没办法完美模拟环境，对未来的预估不一定准确。折扣因子可以将这个不确定性表达出来，希望尽快得到奖励，而不是在未来某一个点得到奖励。
如果奖励是有实际价值的，我们可能更希望立即得到奖励，而不是后面再得到奖励
在我们人的因为里，大家也是想得到即时奖励。

1-2 为什么矩阵形式的贝尔曼方程（Bellman equation）的解析解比较难解?

矩阵的解析解需要对矩阵进行求逆，该过程复杂度是O(N^3)
当状态非常多的时候，比如说从我们现在十个状态到一千个状态，到一百万个状态，这个转移矩阵就会是个一百万乘一百万的一个矩阵。求解就非常不易

2-3 计算贝尔曼方程（Bellman equation）的常见方法以及区别？

蒙特卡罗方法：可用来计算价值函数的值
动态规划方法：可用来计算价值函数的值
时间差分学习（以上两者的结合）

2-4 马尔可夫奖励过程（MRP）与马尔可夫决策过程（MDP）的区别？

马尔可夫决策过程比马尔可夫奖励过程多了一个决策过程。状态转移也多了一个条件，即采取行为，从而导致未来的状态的变化。价值函数也一样多了一个条件。
两者可以进行相互转换：
- 条件：已知马尔科夫决策过程和一个策略函数
- 已知策略函数：对于转移函数 P(s'|s, a) 可以计算它在每个状态采取行动的概率。直接将动作进行加和，就可以得到马尔可夫奖励过程。

2-5 马尔可夫决策过程里面的`状态转移`与马尔可夫奖励过程的结构或者计算方面的差异？

结构差异：马尔可夫决策过程比马尔可夫奖励过程多了一层行为
计算差异：增加了动作策略概率函数
- 马尔可夫奖励过程的状态转移（马尔可夫链），转移概率是直接确定的，就是从当前状态通过转移概率得到下一时刻的状态值。
- 马尔可夫决策过程的状态转移，首先要确定采取哪个行动，然后才是进行状态转移

2-6 我们如何寻找最优策略，方法有哪些？

穷举法
迭代法（策略迭代 | 价值迭代）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习_02_DataWhale马尔可夫决策过程习题

习题
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Scc_hy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。