最优理论与技术--动态规划问题

最新推荐文章于 2024-05-20 08:15:00 发布

beautiful_well

最新推荐文章于 2024-05-20 08:15:00 发布

阅读量1.5k

点赞数

分类专栏： self-总结文章标签：优化理论

本文链接：https://blog.csdn.net/beautiful_well/article/details/103024933

版权

动态规划问题：主要指多阶段决策过程。基本概念：阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..动态规划（Dynamic Programming）是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼（R. E. Bellman）等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后，全部过程的决策就是这些阶段决策所组成的一个决策...

摘要由CSDN通过智能技术生成

动态规划问题：主要指多阶段决策过程。基本概念：阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..

动态规划（Dynamic Programming）是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼（R. E. Bellman）等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后，全部过程的决策就是这些阶段决策所组成的一个决策序列，这就是多阶段决策问题。

特别注意：
动态规划求解的多阶段决策问题的特点：

适合于用动态规划方法求解的只是一类特殊的多阶段决策问题，即具有“无后效性”的多阶段决策过程。所谓无后效性，又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策(历史)无关。

步骤：1、阶段（stage）：根据所需解决问题的特点，按照时间或空间顺序把整个过程划分为若干相互联系的阶段，以便按照一定次序求解。描述阶段的变量称为阶段变量，通常用字母k表示阶段变量。

2、状态（state）：状态表示各阶段开始所处的自然状况或客观条件，它既是某阶段过程演变的起点，又是前一阶段某种决策的结果。描述状态的变量称为状态变量，常用sk表示第k阶段的状态变量。状态变量sk的取值集合称为状态集合，第k阶段的状态集合记为Sk 。状态的选取应当满足无后效性：系统从某个阶段往后的发展演变，完全由系统本阶段所处的状态及决策所决定，与系统以前的状态及决策无关。也就是说，过去的历史只能通过当前的状态去影响未来的发展，当前的状态是过去历史的一个完整总结。只有具有无后效性的多阶段决策过程才适合于用动态规划方法求解。

3、决策（decision）当各阶段的状态选定以后，可以做出不同的决定（或选择）从而确定下一个阶段的状态，这种决定（或选择）称为决策。表述决策的变量称为决策变量，常用uk（sk）表示第k阶段当状态为sk时的决策变量。实际问题中，决策变量的取值往往限制在某一范围内，此范围称为允许决策集合，常用Dk（sk）表示第k阶段从状态sk出发的允许决策集合，显然uk（sk）∈Dk（sk）。

4、策略（policy）

当各个阶段的决策确定以后，各阶段的决策形成一个决策序列，称此决策序列为一个策略。使系统达到最优效果的策略称为最优策略。在n阶段决策过程中，从第k

最低0.47元/天解锁文章

beautiful_well

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
最优理论与技术--动态规划问题

动态规划问题：主要指多阶段决策过程。基本概念：阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..动态规划（Dynamic Programming）是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼（R. E. Bellman）等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后，全部过程的决策就是这些阶段决策所组成的一个决策...
复制链接

扫一扫