DP,MDP和SDP的区别与联系是什么

喝凉白开都长肉的大胖子

于 2024-12-09 10:49:04 发布

阅读量675

点赞数 21

分类专栏：调度优化文章标签： DP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43585760/article/details/144340815

版权

调度优化专栏收录该内容

6 篇文章

订阅专栏

DP,MDP和SDP的区别与联系是什么

DP（动态规划），MDP（马尔可夫决策过程），和SDP（随机动态规划）是解决动态优化问题的三种相关方法或框架，它们之间既有联系也有重要区别。

1. 动态规划（DP, Dynamic Programming）

概念

动态规划是一种解决优化问题的数学方法，通常用于离散和确定性问题。
它通过将问题分解为子问题，利用子问题的最优解构造出原问题的最优解。
其核心思想是最优子结构和状态转移方程。

特点

适合确定性问题：状态转移过程是确定性的。
关键组成部分：
- 状态（State）: 描述系统的当前情况。
- 决策（Decision）: 决定如何从当前状态转移到下一个状态。
- 状态转移方程: 描述状态之间的关系。
- 边界条件: 定义初始条件或终止条件。
示例问题：背包问题、最长公共子序列、最短路径问题等。

2. 马尔可夫决策过程（MDP, Markov Decision Process）

概念

MDP 是动态规划在随机环境中的扩展，常用于建模决策问题。
它是一个数学框架，描述了一个具有随机性和决策性的过程，决策会影响未来状态和奖励。

特点

适合随机性问题：状态转移是概率性的。
关键组成部分：
- 状态空间（State Space, ( S )）: 系统可能的所有状态集合。
- 动作空间（Action Space, ( A )）: 决策者可采取的所有动作集合。
- 转移概率（Transition Probability, ( P(s’ | s, a) )）: 从状态 ( s ) 采取动作 ( a ) 后到达状态 ( s’ ) 的概率。
- 奖励函数（Reward Function, ( R(s, a) )）: 采取某一动作后获得的即时回报。
- 折扣因子（Discount Factor, ( \gamma )）: 衡量当前奖励与未来奖励的权衡。
目标：寻找一条策略 ( \pi )，使得期望累计奖励最大化。
示例问题：机器人导航、库存管理、强化学习等。

3. 随机动态规划（SDP, Stochastic Dynamic Programming）

概念

SDP 是动态规划的进一步扩展，用于处理随机性问题，特别是决策过程具有随机扰动或不确定性的情况。
SDP 的本质是 MDP 的一种求解方法，专注于通过动态规划的思想解决随机动态系统的优化问题。

特点

和 MDP 密切相关：随机动态规划主要解决 MDP 的决策问题。
核心是通过**贝尔曼方程（Bellman Equation）**来递归求解最优策略。
关键组成部分与 MDP 类似，包含状态、动作、转移概率、奖励函数等。
示例问题：随机库存问题、投资组合优化等。

三者的区别与联系

特性	DP	MDP	SDP
随机性	不考虑随机性，确定性状态转移	状态转移具有随机性	处理随机性问题，基于动态规划思想
目标	寻找最优解，解决确定性优化问题	寻找最优策略，最大化期望累计奖励	解决 MDP 的最优控制问题
状态转移	确定性状态转移	马尔可夫性质（随机性）	包含随机性，使用贝尔曼方程
求解方式	递归或迭代，状态转移方程求解	策略评估与策略改进（动态规划可用）	基于动态规划思想
适用场景	确定性问题（背包、路径优化等）	强化学习、策略优化、随机控制问题等	随机控制、投资组合、库存问题等

联系

核心思想一致：三者都基于递归分解问题并利用最优子结构的思想。
层层递进：
- DP 是基础，解决确定性问题。
- MDP 引入随机性，是 DP 的扩展。
- SDP 是 MDP 的求解方法，利用动态规划解决随机优化问题。

总结

DP 适用于确定性问题。
MDP 是随机环境中的决策模型。
SDP 是动态规划的随机版本，用于解决 MDP。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

喝凉白开都长肉的大胖子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。