强化学习_02_DataWhale马尔可夫决策过程习题

本文探讨了马尔可夫奖励过程中的折扣因子作用,解释了矩阵形式贝尔曼方程解析解的难度,并介绍了计算贝尔曼方程的常见方法。此外,阐述了马尔可夫奖励过程与马尔可夫决策过程的区别,以及如何在马尔可夫决策过程中寻找最优策略。
摘要由CSDN通过智能技术生成

习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子(discount factor)?

  • 马尔可夫过程是带环的,需要避免无穷的奖励
  • 我们没办法完美模拟环境,对未来的预估不一定准确。折扣因子可以将这个不确定性表达出来,希望尽快得到奖励,而不是在未来某一个点得到奖励。
  • 如果奖励是有实际价值的,我们可能更希望立即得到奖励,而不是后面再得到奖励
  • 在我们人的因为里,大家也是想得到即时奖励。

1-2 为什么矩阵形式的贝尔曼方程(Bellman equation)的解析解比较难解?

  • 矩阵的解析解需要对矩阵进行求逆,该过程复杂度是O(N^3)
  • 当状态非常多的时候,比如说从我们现在十个状态到一千个状态,到一百万个状态,这个转移矩阵就会是个一百万乘一百万的一个矩阵。求解就非常不易

2-3 计算贝尔曼方程(Bellman equation)的常见方法以及区别?

  1. 蒙特卡罗方法:可用来计算价值函数的值
  2. 动态规划方法:可用来计算价值函数的值
  3. 时间差分学习(以上两者的结合)

2-4 马尔可夫奖励过程(MRP)与马尔可夫决策过程(MDP)的区别?

  • 马尔可夫决策过程比马尔可夫奖励过程多了一个决策过程。状态转移也多了一个条件,即采取行为,从而导致未来的状态的变化。价值函数也一样多了一个条件。
  • 两者可以进行相互转换:
    • 条件:已知马尔科夫决策过程 和 一个策略函数
    • 已知策略函数:对于转移函数 P(s'|s, a) 可以计算它在每个状态采取行动的概率。直接将动作进行加和,就可以得到马尔可夫奖励过程。

2-5 马尔可夫决策过程里面的状态转移与马尔可夫奖励过程的结构或者计算方面的差异?

  • 结构差异:马尔可夫决策过程比马尔可夫奖励过程多了一层行为
  • 计算差异:增加了动作策略概率函数
    • 马尔可夫奖励过程的状态转移(马尔可夫链),转移概率是直接确定的,就是从当前状态通过转移概率得到下一时刻的状态值。
    • 马尔可夫决策过程的状态转移,首先要确定采取哪个行动,然后才是进行状态转移

2-6 我们如何寻找最优策略,方法有哪些?

  1. 穷举法
  2. 迭代法(策略迭代 | 价值迭代)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Scc_hy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值