动态规划与多阶段决策问题简介

古道西风瘦码

已于 2023-02-11 16:32:10 修改

阅读量1.7k

点赞数 2

分类专栏：动态规划强化学习文章标签：动态规划算法

于 2023-02-11 16:19:45 首次发布

本文链接：https://blog.csdn.net/m0_65532100/article/details/128981165

版权

动态规划同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

强化学习

6 篇文章 3 订阅

订阅专栏

文章介绍了动态规划的概念，通过最短路径问题和库存成本最低问题两个实例进行说明。多阶段决策问题的特点、阶段变量、状态、决策、策略和状态转移方程被详细阐述，同时讨论了指标函数在衡量决策效果中的作用，以及如何寻找最优解。最后，提到了数学模型在解决此类问题中的应用。

摘要由CSDN通过智能技术生成

1.引例

1.1最短路径问题

在这里插入图片描述
动态规划求解从A到F的最短路径。

1.2 库存成本最低问题

某企业生产某种产品，每月月初按订货单发货，生产的产品随时入库，仓库最多能够储存产品90千件。在1至6月其生产成本和产品订单的需求数量情况如下表：
在这里插入图片描述
已知上一年底库存量为40千件，要求6月底库存量仍能够保持40千件。问：如何安排这6个月的生产量，使既能满足各月的定单需求，同时生产成本最低。

2、多阶段决策问题

2.1 特点

在这里插入图片描述

2.2 阶段和阶段变量

相互联系又有区别的子问题——阶段
描述阶段的变量——阶段变量（ $k$ 表示）

2.3状态、状态变量、可能状态集

某特定时间与空间中位置及运动特征的量——状态
反映状态变化的量——状态变量
状态变量的取值范围或集合——可能状态集（可达状态集），可以是离散的也可以是连续的

状态变量

无后效性（马尔可夫性）——系统从某个阶段之后的发展，仅与当前状态及之后的决策决定，与之前的状态和经历无关——（强化学习应用）

状态

阶段 $k$ 的初始状态 $s_k$ ，终止状态 $s_{k+1}$ ，可能状态集 $S_k$ ，即 $s_k \in S_k$ 。

2.4决策、决策变量和允许变量集合

从给定阶段的状态出发到下一个阶段状态的选择（行动 $a c t i o n$ ）——决策
描述决策变化的量——决策变量，可以是数、向量、其他量、也可是状态变量的函数
决策变量的取值范围——允许决策集合

决策变量和允许决策集合

记 $u_k=u_k(s_k)$ 表示阶段 $k$ 状态为 $s_k$ 时的决策变量，允许决策集 $U_k(s_k)$ 表示，允许决策集合实际是决策的约束条件

2.5策略和允许策略集合

决策序列——策略（全过程策略、 $k$ 部字策略）
依次进行的 $n$ 个决策构成的决策序列——全过程策略（简称策略），表示为
$p_{1,n}\left\{u_1u_2,\cdots,u_n\right\}$
从 $k$ 阶段到第 $n$ 阶段，依次进行的阶段决策构成的决策序列称为 $k$ 部子策略，表示为 $p_{k,n}\left\{u_k,u_{k+1},\cdots,u_n\right\}$ ，显然，当 $k = 1$ 时的 $k$ 部子策略就是全过程策略。
不同策略的集合即允许策略集合，记作 $P_{1,n}$ 。最有效果的策略称为最优策略

2.6状态转移方程

$s_k+u_k(s_k) \Rightarrow s_{k+1}$
无后效性的转移过程： $s_{k+1}$ 只和 $s_k$ 和 $u_k(s_k)$ 有关，与之前的 $s_1,s_2,\cdots,s_{k-1}$ 及其决策 $u_1(s_1),u_2(s_2),\cdots,u_{k-1}(s_{k-1})$ 无关。表示为：
$s_{k+1}=T_k(s_k,u_k(s_k))$
多阶段决策过程的状态转移方程。

2.7指标函数

衡量策略或子策略或决策效果的某种数量指标——指标函数。如奖励函数。

阶段指标函数

$g_k(s_k,u_k)$ 表示 $k$ 阶段处于 $s_k$ 状态下执行 $u_k(s_k)$ 决策的指标。强化学习中的即时奖励 $r$ 。
$R_k(s_k,u_k)$ 表示 $k$ 子过程的指标函数。与 $s_k$ 和 $p_k(s_k)$ 有关，严格可表示为 $R_k(s_k,p_k(s_k))$ 。可简写为 $R_k(s_k,u_k)$ 或 $R_k(s_k)$ 。累积奖励函数 $R$ ，由各阶段指标函数（奖励函数）累积而成。

过程指标函数

动态规划中的过程指标函数（目标函数），有关于阶段指标的分离形式。 $k$ 部子过程的指标函数可表示为：
$\begin{aligned}R_{k,n}&= R_{k,n}(s_k,u_k,s_{k+1},u_{k+1},\cdots,s_n,u_n)\\ &=g_k(s_k,u_k)\bigoplus g_{k+1}(s_{k+1},u_{k+1})\bigoplus \cdots \bigoplus g_n(s_n,u_n)\end{aligned}$
$\bigoplus$ 表示某种运算。
常见目标形式各阶段效应之和：
$\begin{equation} R_k=\sum_{i=k}^ng_i(s_i,u_i) \end{equation}$
而有些问题如系统可靠性问题，目标函数为各阶段连乘：
$\begin{equation} R_k=\prod \limits_{i=k}^ng_i(s_i,u_i) \end{equation}$

2.8最优解

第 $k$ 子过程指标函数 $R_k(s_k,p_k(s_k))$ 在状态 $s_k$ 下的最优值—— $f_k(s_k)$
即
$\begin{aligned} f_k(s_k)=\mathop{opt}\limits_{p_k\in P_K(s_k)}\left\{R_k(s_k,p_k(s_k))\right\}\\ k=1,2,\cdots,n \end{aligned}$
相应的 $s_k$ 状态下的最优子策略记为 $p_k^*(s_k)$ 。构成该子策略的各阶段决策称为该过程的最优决策，记
$u_k^*(s_k),u_{k+1}^*(s_{k+1}),\cdots,u_n^*(s_n)$
有
$\begin{aligned} p_k^*(s_k)=\{u_k^*(s_k),u_{k+1}^*(s_{k+1}),\cdots,u_n^*(s_n)\}\\ (k=1,2,\cdots,n) \end{aligned}$
简记为
$\begin{aligned} p_k^*=\{u_k^*,u_{k+1}^*,\cdots,u_n^*,k=1,2,\cdots,n\} \end{aligned}$
特别，当 $k = 1$ 且 $s_1$ 取值唯一时， $f_1(s_1)$ 就是问题最优值，而 $p_1^*$ 就是最优策略。若取值不唯一，则问题最优值记为 $f_0$ ，有
$f_0^*=\mathop{opt} \limits_{s_1\in S_1}\{f_1(s_1)\}=f_1(s_1=s_1^*)$
最优策略即 $s_1=s_1^*$ 状态下的最优策略： $u_k^*(k=1,2,\cdots,n)$ ，最优策略和最优值统称为最优解

3. 数学模型

$\mathop{opt} \limits_{u_1 u_n}R(s_1,u_1,s_2,u_2,\cdots,s_n,u_n)\\ s.t.\left\{ \begin{array}{lr} s_{k+1}=T_k(s_k,u_k) \\ s_k\in S_k\\ u_k\in U_k\\ k=1,2,\cdots,n \end{array} \right.$