动态规划基本方程

古道西风瘦码

已于 2023-02-12 11:51:51 修改

阅读量575

点赞数

分类专栏：动态规划强化学习文章标签：动态规划算法

于 2023-02-11 22:18:07 首次发布

本文链接：https://blog.csdn.net/m0_65532100/article/details/128988696

版权

动态规划同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

强化学习

6 篇文章 3 订阅

订阅专栏

文章目录

1.方程
- 1.1“和”形式
- 1.2“积”形式
2.基本思想和解题步骤
- 逆推求解
3.问题实例

1.方程

1.1“和”形式

$f_k(s_k)=\mathop{opt}\limits_{p_k\in P_K(s_k)}^n\{R_k(s_k,p_k(s_k))\}=opt\{\sum_{i=k}^ng_i(s_i,u_i)\}$
相应函数基本方程为
$\left\{ \begin{array}{l} f_{n+1}(s_{n+1})=\beta, \\ f_k(s_k)=\mathop{opt}\limits_{u_k\in U_k}\{g_k(s_k,u_k(s_k))+f_{k+1}(s_{k+1})\},\\ k=n,n-1,\cdots,2,1 \end{array} \right.$

1.2“积”形式

$f_k(s_k)=\mathop{opt}\prod_{p_k\in P_K(s_k)}^n\{R_k(s_k,p_k(s_k))\}=opt\{\sum_{i=k}^ng_i(s_i,u_i)\}$
相应函数基本方程为
$\left\{\begin{array}{lr} f_{n+1}(s_{n+1})=\alpha\\ f_k(s_k)=\mathop{opt}\limits_{u_k\in U_k}\{g_k(s_k,u_k(s_k))\cdot f_{k+1}(s_{k+1})\}\\ k=n,n-1,\cdots,2,1 \end{array} \right.$
常用求最小加法计算公式：
$\left\{\begin{array}{lr} f_{n+1}(s_{n+1})=0; 边界条件\\ f_k(s_k)=\mathop{min} \limits_{u_k\in U_k(s_k)}\{g_k(s_k,u_k(s_k))+f_{k+1}(s_{k+1})\};阶段指标\\ k=1,n-1,\cdots,2,1 \end{array} \right.$

2.基本思想和解题步骤

逆推求解

建立动态规划模型
递推求解基本方程
回溯
**合理、有效建立模型**

3.问题实例

3.1最短路径问题

3.1.1标号法——最优路线问题

给最后一段标号
向前递推
逐次向前递推

下图中一货运汽车从 S 出发，最终到达目的地 E 。其中， $A_i (i＝1, 2, 3)$ ， $B_j (j＝1, 2)$ 和 $C_k (k＝1, 2)$ 是可供汽车选择的途经站点，各点连线上的数字表示两站点间的距离。
问此汽车应走哪条路线，使所经过的路程距离最短?
在这里插入图片描述

某城市局部道路求最短路径的过程
从S到E最短距离为21，共有三条最短路线：

$S\rightarrow A_1 \rightarrow B_1 \rightarrow C_1 \rightarrow E$
$S\rightarrow A_3 \rightarrow B_1 \rightarrow C_1\rightarrow E$
$S\rightarrow A_3\rightarrow B_2\rightarrow C_1\rightarrow E$

3.1.2表格法

当问题不便于表示为网络图形式时，标号法会失去作用。离散型问题的递推公式往往无法表示为解析式，因此运算过程使用表格较为方便.（就本人意见来说，这种方法只适合于少量节点问题，因为其本质仍是一种枚举法，因此并不推崇）
在这里插入图片描述
建模
（1）如图划分成 5 个阶段。
（2）状态变量 $x_k$ 表示第 $k$ 阶段开始的位置。
（3）决策变量 $d_k$ 定义为到达下一站所选择的路径。
（4）状态转移：决策确定了下一阶段的状态。
（5）阶段指标：图中线段上所标的数值。
（6）最优指标函数 $f_k(x_k)$ ：
$f_k(x_k)=\mathop{min}\limits_{d_k\in D_k(x_k)}\{v_k(x_k,d_k)+f_{k+1}(x_{k+1})\}\\ (k=4,3,2,1)$
终端条件为 $f_5(x_5)=f_5(E)=0$ ，其含义为从E到E的最短路径为0.
第四阶段的递推：
$f_4(x_4)=\mathop{min}\limits_{d_4\in D_4(x_4)}\{v_4(x_4,d_4)+f_{5}(x_{5})\}$ 从 $f_5(x_5)$ 到 $f_4(x_4)$ 的递推过程：
在这里插入图片描述
第三阶段的递推：
$f_3(x_3)=\mathop{min}\limits_{d_3\in D_3(x_3)}\{v_3(x_3,d_3)+f_{4}(x_{4})\}$ 从 $f_4(x_4)$ 到 $f_3(x_3)$ 的递推过程：

第2阶段的递推方程为：
$f_2(x_2)=\mathop{min}\limits_{d_2\in D_2(x_2)}\{v_2(x_2,d_2)+f_{3}(x_{3})\}$ 从 $f_3(x_3)$ 到 $f_2(x_2)$ 的递推过程：
在这里插入图片描述
第1阶段的递推方程为：
$f_1(x_1)=\mathop{min}\limits_{d_1\in D_1(x_1)}\{v_1(x_1,d_1)+f_{2}(x_{2})\}$ 从 $f_2(x_2)$ 到 $f_1(x_1)$ 的递推过程：

由此得到 $f_1(x_1) =19$ , 即从 $A$ 到 $E$ 的最短路径长度为19。
回溯求最优策略：
由 $f_1(x_1)$ 向 $f_4(x_4)$ 回溯，得到最短路径为： $A\rightarrow B_2\rightarrow C_1\rightarrow D_1\rightarrow E$

3.2资源分配问题

现有资金 4 万元，投资 $A 、 B 、 C$ 三个项目，每个项目的投资效益与投入该项目的资金有关。三个项目 $A 、 B 、 C$ 的投资效益（万 $t$ ）和投入资金（万元）关系见下表：
在这里插入图片描述
求最优投资分配使总投资效益最大。
建模：
(1) 阶段 $k$ ：每投资一个项目作为一个阶段。
(2) 状态变量 $x_k$ ：投资第 $k$ （ $k = A, B, C$ )个项目前的资金。(指包括第 $k$ （ $k = A, B, C$ )个项目在内之后的项目可用资金）
(3) 决策变量 $d_k$ ：第 $k$ 个项目的投资。决策允许集合： $0≤d_k≤x_k$
(4) 状态转移方程： $x_{k+1}=x_k-d_k$ 。
(5) 阶段指标： $v_k(x_k ,d_k)$ 见表中所示。
(6) 递推方程：
$f_k(x_k)=max\{v_k(x_k ,d_k)+f_{k+1}(x_{k+1})\}$
终端条件： $f_4(x_4)=0$
求解基本方程： $k=4，f_4(x_4)=0, k=3，0≤d_3≤x_3，x_4=x_3-d_3$
在这里插入图片描述
$k=2，0≤d_2≤x_2，x_3=x_2-d_2$

$k=1，0≤d_1≤x_1，x_2=x_1－d_1$

回溯，求得最优解为
$x_1=4, d_1^*=1, x_2=x_1-d_1=3, d_2^*=0, x_3=x_2-d_2^*=3, d_3=3, x_4=x_3-d_3=0$ ，
即项目A投资1万元，项目B投资0万元，项目C投资3万元，最大效益为60万t。

3.3连续型动态规划问题

当状态变量和决策变量的取值范围很大，或者这些变量是连续时，用列举的方法就比较困难或者根本不可能。

机器负荷分配问题

某机器可以在高、低两种负荷下生产。高负荷生产条件下机器完好率为0.7，单台产量为8t；低负荷运行时，机器完好率为0.9，单台产量为5t。设开始时有1000台完好机器，要制订五年计划，每年年初将完好的机器一部分分配到高负荷生产，剩下的机器分配到低负荷生产，使五年的总产量为最高。
注：完好率，年初投入生产年末保持完好的机器数量比率；单台产量，年初运行机器的平均年产量。
构造动态规划模型如下：
(1) 阶段k：运行年份 $(k = 1, 2, 3, 4, 5, 6)$ ,其中 $k = 1$ 表示第1年初, $\cdots$ , $k = 6$ 表示第6年初(即第5年末)。
(2) 状态变量 $x_k$ ：第 $k$ 年初完好的机器数 $（ k = 1, 2, 3, 4, 5, 6 ）$ ，其中 $x_6$ 表示第5年末（即第6年初）的完好机器数。
(3) 决策变量 $d_k$ ：第 $k$ 年投入高负荷运行的机器数；
(4) 决策允许集合： $D_k(x_k)=\{d_k|0\leq d_k\leq x_k\}$
(5) 状态转移方程： $x_{k+1}=0.7d_k+0.9(x_k-d_k)$
(6) 阶段指标： $v_k(x_k , d_k) =8d_k+5(x_k-d_k)$
(7) 终端条件： $f_6(x_6) = 0$
(8) 递推方程：
$\begin{aligned} f_k(x_k) &= \mathop{max}\limits_{d_k\in D_k(x_k)}\{v_k(x_k,d_k)+f_{k+1}(x_{k+1})\} \\ &= \mathop{max}\limits_{d_k\in D_k(x_k)}\{8d_k+5(x_k- d_k)+f_{k+1}[0.7d_k+0.9(x_k-d_k)]\}\\ &0\leq d_k\leq x_k \end{aligned}$
本题的决策允许集合应是一个整数集合，但由于决策允许集合中可取的决策数量很大，一一列举计算量也很大，不妨认为状态变量和决策变量都是连续的，得到最优解后，再作取整处理。
在这里插入图片描述

回溯，可以得到：
$f_1(x_1)=23.69x_1, d_1*=0\\ f_2(x_2)=20.77x_2, d_2*=0\\ f_3(x_3)=17.52x_3, d_3*=x_3\\ f_4(x_4)=13.60x_4, d_4*=x_4\\ f_5(x_5)=8x_5,d_5*=x_5$
用 $x_1=1000$ 代入，得到五年最大产量为 $f_1(x_1)=f_1(1000)=23690$
每年投入高负荷运行的机器数以及每年初完好的机器数为：
$x_1=1000\\ d_1^*=0, x_2=0.7d_1+0.9(x_1-d_1)=900\\ d_2^*=0, x_3=0.7d_2+0.9(x_2-d_2)=810\\ d_3^*=x_3=810, x_4=0.7d_3+0.9(x_3-d_3)=567\\ d_4^*=x_4=567, x_5=0.7d_4+0.9(x4-d_4)=397\\ d_5^*=x_5=397, x_6=0.7d_5+0.9(x_5-d_5)=278$

讨论

例中状态变量的终端值 $x_6$ 是未加约束的，如果要求在第5年末（即第6年初）完好的机器数不少于500台，这时决策变量 $d_5$ 的决策允许集合将成为：
$D_5(x_5)=\{d_5|0.7d_5+0.9(x_5-d_5)\geq500, d_5\geq0\}\\即 0.9x_5-0.2d_5\geq500 ，d5\geq0 \\ 或0 \leq d_5\leq4.5x_5-2500$
容易看到，这时的最大产量将比“ $x_6$ 是自由的”情况下小。
这个例子可以推广到一般情况。设高负荷生产时机器的完好率为 $k_1$ ，单台产量为 $p_1$ ；低负荷完好率为 $k_2$ ，单台产量为 $p_2$ 。若有 $t$ 满足:
$\sum_{i=0}^{n-(t+1)}k_1^i\leq \frac{p_1-p_2}{p_1(k_2-k_1)}\leq \sum_{i=0}^{n-t}k_1^i$
则从 1 到 $t - 1$ 年，年初将全部完好机器投入低负荷运行，从 $t$ 到 $n$ 年，年初将全部完好机器投入高负荷运行，这样的决策将使总产量达到最大。