最优理论与技术--动态规划问题

动态规划问题:主要指多阶段决策过程。基本概念:阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..动态规划(Dynamic Programming)是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼(R. E. Bellman)等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后,全部过程的决策就是这些阶段决策所组成的一个决策...
摘要由CSDN通过智能技术生成

动态规划问题:主要指多阶段决策过程基本概念:阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..

动态规划(Dynamic Programming是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼(R. E. Bellman)等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后,全部过程的决策就是这些阶段决策所组成的一个决策序列,这就是多阶段决策问题

特别注意:
动态规划求解的多阶段决策问题的特点:

适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有无后效性的多阶段决策过程。所谓无后效性,又称马尔柯夫性是指系统从某个阶段往后的发展,仅由本阶段所处的状态及其往后的决策所决定,与系统以前经历的状态和决策(历史)无关。

步骤:1、阶段(stage):根据所需解决问题的特点,按照时间或空间顺序把整个过程划分为若干相互联系的阶段,以便按照一定次序求解。描述阶段的变量称为阶段变量,通常用字母k表示阶段变量。

      2、状态(state) :状态表示各阶段开始所处的自然状况或客观条件,它既是某阶段过程演变的起点,又是前一阶段某种决策的结果。描述状态的变量称为状态变量,常用sk表示第k阶段的状态变量。状态变量sk的取值集合称为状态集合,第k阶段的状态集合记为Sk 。状态的选取应当满足无后效性:系统从某个阶段往后的发展演变,完全由系统本阶段所处的状态及决策所决定,与系统以前的状态及决策无关。也就是说,过去的历史只能通过当前的状态去影响未来的发展,当前的状态是过去历史的一个完整总结。只有具有无后效性的多阶段决策过程才适合于用动态规划方法求解。

   3、决策(decision)当各阶段的状态选定以后,可以做出不同的决定(或选择)从而确定下一个阶段的状态,这种决定(或选择)称为决策。表述决策的变量称为决策变量,常用uksk表示第k阶段当状态为sk时的决策变量。实际问题中,决策变量的取值往往限制在某一范围内,此范围称为允许决策集合,常用Dksk表示第k阶段从状态sk出发的允许决策集合,显然uksk)∈Dksk)。

  4、策略(policy)

当各个阶段的决策确定以后,各阶段的决策形成一个决策序列,称此决策序列为一个策略。使系统达到最优效果的策略称为最优策略。在n阶段决策过程中,从第k

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值