RL - 强化学习马尔可夫决策过程 (MDP) 转换马尔可夫奖励过程 (MRP)

ElminsterAumar

已于 2023-06-08 10:12:25 修改

阅读量860

点赞数

分类专栏：大模型 (LLM) 文章标签：数学建模

于 2023-06-07 22:17:35 首次发布

本文链接：https://blog.csdn.net/caroline_wendy/article/details/131097165

版权

大模型 (LLM) 专栏收录该内容

101 篇文章 4 订阅 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何将马尔可夫决策过程（MDP）转换为马尔可夫奖励过程（MRP）。MDP包括状态、动作、状态转移概率、奖励函数和折扣因子，而MRP不包含动作和策略。转换过程中，状态集合和动作集合保持不变，状态转移概率和奖励函数进行相应调整。MRP适合专注于奖励过程的建模和分析，但无法反向转换回MDP。此外，文章还提到了策略π在MDP中的角色，并展示了状态价值Vπ(s′)和动作价值Qπ(s,a)的计算方法。" 139591645,22748443,Redis在微服务架构中的应用：服务通信与数据共享,"['架构', 'redis', '微服务']

摘要由CSDN通过智能技术生成

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/131097165

马尔可夫决策过程（Markov Decision Process，MDP）和马尔可夫奖励过程（Markov Reward Process，MRP）之间存在一种转换关系。马尔可夫决策过程（MDP）是一种数学模型，用于描述一个决策过程中的随机性和不确定性。MDP由5个元素组成：状态集合（S），动作集合（A），状态转移概率函数（P），奖励函数（R），以及折扣因子（γ）。然而，马尔可夫决策过程并不直接包含奖励信息，而是通过引入马尔可夫奖励过程（MRP）来处理奖励。马尔可夫奖励过程是马尔可夫决策过程的一个子集，不包含动作集合和策略。

下面是将MDP转换为MRP的步骤