动态规划问题:主要指多阶段决策过程。基本概念:阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..
动态规划(Dynamic Programming)是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼(R. E. Bellman)等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后,全部过程的决策就是这些阶段决策所组成的一个决策序列,这就是多阶段决策问题。
特别注意:
动态规划求解的多阶段决策问题的特点:
适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。所谓无后效性,又称马尔柯夫性,是指系统从某个阶段往后的发展,仅由本阶段所处的状态及其往后的决策所决定,与系统以前经历的状态和决策(历史)无关。
步骤:1、阶段(stage):根据所需解决问题的特点,按照时间或空间顺序把整个过程划分为若干相互联系的阶段,以便按照一定次序求解。描述阶段的变量称为阶段变量,通常用字母k表示阶段变量。
2、状态(state) :状态表示各阶段开始所处的自然状况或客观条件,它既是某阶段过程演变的起点,又是前一阶段某种决策的结果。描述状态的变量称为状态变量,常用sk表示第k阶段的状态变量。状态变量sk的取值集合称为状态集合,第k阶段的状态集合记为Sk 。状态的选取应当满足无后效性:系统从某个阶段往后的发展演变,完全由系统本阶段所处的状态及决策所决定,与系统以前的状态及决策无关。也就是说,过去的历史只能通过当前的状态去影响未来的发展,当前的状态是过去历史的一个完整总结。只有具有无后效性的多阶段决策过程才适合于用动态规划方法求解。
3、决策(decision)当各阶段的状态选定以后,可以做出不同的决定(或选择)从而确定下一个阶段的状态,这种决定(或选择)称为决策。表述决策的变量称为决策变量,常用uk(sk)表示第k阶段当状态为sk时的决策变量。实际问题中,决策变量的取值往往限制在某一范围内,此范围称为允许决策集合,常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然uk(sk)∈Dk(sk)。
4、策略(policy)
当各个阶段的决策确定以后,各阶段的决策形成一个决策序列,称此决策序列为一个策略。使系统达到最优效果的策略称为最优策略。在n阶段决策过程中,从第k