动态规划
1.动态规划概论
动态规划(Dynamic Programming,DP)
是运筹学的一个分支,是求解决策过程最优化的过程。在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。
2.动态规划应用过程
使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式,要涉及以下阶段:
(1)阶段
(2)状态
(3)决策与策略
(4)状态转移方程
(5)指标函数
(6)基本方程
(1) 划分阶段
把一个复杂决策问题按时间或空间特征分解为若干(n)个相互联系的阶段(stage), 以便按顺序求解;
阶段变量描述当前所处的阶段位置,一般用下标k 表示;
(2) 确定状态
每阶段有若干状态(state), 表示某一阶段决策面临的条件或所处位置及运动特征的量,称为状态。反映状态变化的量叫作状态变量。 k 阶段的状态特征可用状态变量 sk 描述;
每一阶段的全部状态构成该阶段的状态集合Sk,并有sk属于Sk。每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,阶段的初始状态记作sk ,终止状态记为sk+1 ,也是下个阶段的初始状态。
(3) 决策、决策变量
所谓决策就是确定系统过程发展的方案,决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选择。
用以描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述.也可以是状态变量的函数,记以 xk