S_8动态规划

最新推荐文章于 2024-08-01 13:27:05 发布

送快递的勃仕

最新推荐文章于 2024-08-01 13:27:05 发布

阅读量577

点赞数 3

文章标签：动态规划算法

本文链接：https://blog.csdn.net/tew_315/article/details/131606066

版权

$\S8$ 动态规划

基本概念

1. 阶段

每一个子问题，对应一个阶段的决策。

2. 状态与状态变量

每个阶段的初始自然状况、客观条件即为动态规划问题的状态。

描述状态的变量为状态变量。

状态应具有“无后效性”，即后续过程发展不受这一阶段之前各阶段状态的影响。

3. 决策

描述决出决策的变量，和初始状态有关。

$D_k(s_k)$ 表示k阶段从状态 $s_k$ 出发的允许决策集合，决策变量 $u_k(s_k)\in{D_k(s_k)}$

4. 策略

顺序排列的决策的集合，k阶段之后的问题为k子过程。
$p_{k,n}(s_k)=\{u_{k}(s_k),u_{k+1}(s_{k+1}),..,u_{n}(s_n)\}$
$k = 1$ 时，为允许策略集合
$p_{1,n}(s_1)=\{u_{1}(s_1),u_{2}(s_{2}),..,u_{n}(s_n)\}$

5. 状态转移方程

如果k阶段的状态变量 $s_k$ 和决策变量 $u_k$ 确定，则下一阶段的状态变量则已确定，这种关系为状态转移方程
$s_{k+1}=T_k(s_k,u_k)$

6. 指标函数和最优值函数

指标函数为衡量实现过程优劣的数量指标
$V_{k,n}=V_{k,n}(s_k,u_k,s_{k+1},...,s_{n+1}),k=1,2,...,n$
指标函数具有可分离性，并满足递推关系
$V_{k,n}(s_k,u_k,s_{k+1},...,s_{n+1})=\psi_k[s_k,u_k,V_{k+1},n(s_{k+1},...,s_{n+1})]$
指标函数的最优值，为最优值函数
$f_s(s_k)=\max_{u_k,...,u_n}V_{k,n}(s_k,u_k,...,s_{n+1})$
或者
$f_s(s_k)=\min_{u_k,...,u_n}V_{k,n}(s_k,u_k,...,s_{n+1})$

求解方法

在初始状态给定时，用逆推解法；终止方式给定时，用顺推解法

决策过程： $n$ 阶段

状态变量： $s_1,s_2,...,s_{n+1}$

决策变量： $x_1,x_2,...,x_n$

状态转移方程： $s_{k+1}=T_k(s_k,x_k)$

总效益（指标函数）与各阶段效益之间的关系： $V_{1,n}=v_1(s_1,x_1)*v_2(s_2,x_2)*...*v_n(s_n,x_n)$

逆序解法-逆向归纳法

为使得总效益最大，需求解 $\text{opt}{\quad}V_{1,n}$ , 即 ${\max}{\quad}V_{1,n}$

从 $k$ 阶段到 $n$ 阶段采用最优决策，最大收益为 $f_k(s_k)$

最后一个阶段有：
$f_n(S_n)=\max_{x_n{\in}D_n(s_n)}v_n(s_n,x_n)$
$D_n(s_n)$ 是状态 $s_n$ 所有允许的决策集合，假设其最优解为 $x_n=x_n(s_n)$

n-1阶段，有：
$f_{n-1}(s_{n-1})=\max_{x_{n-1}{\in}D_{n-1}(s_{n-1})}[v_{n-1}(s_{n-1},x_{n-1})*f_n(s_n))]$
其中 $s_n=T_{n-1}(s_{n-1},x_{n-1})$

求解一维极值问题，可以得到最优解 $x_{n-1}=x_{n-1}(s_{n-1})$ 和最优值 $f_{n-1}(s_{n-1})$

在k阶段，有：
$f_k(s_k)=\max_{x_{k}{\in}D_k(s_{k})}[v_{k}(s_{k},x_{k})*f_{k+1}(s_{k+1})]$
其中 $s_{k+1}=T_{k}(s_{n-1},x_{n-1})$

求解一维极值问题，可以得到最优解 $x_{n-1}=x_{n-1}(s_{n-1})$ 和最优值 $f_{n-1}(s_{n-1})$

以此类推，直到第一阶段，可以得到最优解 $x_1=x_1(s_1)$ 和最优值 $f_1(s_1)$

由于初始状态已知，因此可以逐步确定后续解。

eg1

$KaTeX parse error: Undefined control sequence: \mbox at position 63: …^2{\cdot}x_3\\ \̲m̲b̲o̲x̲{s.t.}\quad &x_…$

状态转移方程和决策变量：
$\begin{alignat}{2} &s_3=x_3,s_3+x_2=s_2,s_2+x_1=s_1=c\\ &x_3=s_3,0{\leq}x_2{\leq}s_2,0{\leq}x_1{\leq}s_1=c \end{alignat}$
求解：
$f_3(s_3)=\max_{x_3=s_3}(x_3)=s_3$
最优解 $x_3^*=s_3$
$f_2(s_2)=\max_{0{\leq}x_2{\leq}s_2}\left[{x_2^2f_3(s_3)}\right]=\max_{0{\leq}x_2{\leq}s_2}\left[{x_2^2(s_2-x_2)}\right]$
假设 $h_2(s_2,x_2)=x_2^2(s_2,x_2)$

由一阶条件： $\frac{dh_2}{dx_2}=2x_2s_2-3x_2^2=0$ 得到 $x_2=\frac{2}{3}s_2$ 和 $x_2=0$ (舍去)

又由二阶条件： $\frac{d^2h_2}{dx_2^2}=2s_2-6x_2$ ，代入 $x_2=\frac{2}{3}s_2$ ， $< 0$ ，因此其为极大值

代入 $h_2$ ，得到 $f_2(s_2)=\frac{4}{27}s_2^3$ ，以及最优解 $x_2^*=\frac{2}{3}s_2$

同理可得
$f_1(s_1)=\max_{0{\leq}x_1{\leq}s_1}\left[{x_1f_2(s_2)}\right]=\max_{0{\leq}x_1{\leq}s_1}\left[{x_1{\cdot}\frac{4}{27}(s_1-x_1)^3}\right]$
解得 $x_1^*=\frac{1}{4}s_1$ ， $\frac{1}{64}s_1^4$

由于已知 $s_1=c$ ，逆向归纳得到：
$x_1^*=\frac{1}{4}c,f_1(c)=\frac{1}{64}c^4$

$s_2=s_1-x_1^*=\frac{3}{4}c$

$x_2^*=\frac{2}{3}s_2=\frac{1}{2}c,f_2(s_2)=\frac{1}{16}c^3$

$s_3=s_2-x_2^*=\frac{1}{4}c$

$x_3^*=\frac{1}{4}c,f_3(s_3)=\frac{1}{4}c$

最优解： $x_1^*=\frac{1}{4}c,x_2^*=\frac{1}{2}c,x_3^*=\frac{1}{4}c$

最优目标函数值： $\max{\quad}z=f_1(c)=\frac{1}{64}c^4$

库存管理问题

P289

状态变量： $x_t=$ 第t周期的期初库存

订货量决策： $q_t$

最优期望利润： $R_t(x_t)$

状态转移方程：
$x_{t+1}=\left\{ \begin{array}{rcl} x_t+q_t-D_t{\quad}{if{\quad}D_t\leq{x_t+q_t}}&\\ 0{\quad}{if{\quad}D_t>{x_t+q_t}}& \end{array} \right.$
利润：
$\phi(q_t|D_t)=\left\{ \begin{array}{rcl} pD_t-cq_t-h(x_t+q_t-D_t){\quad}{if{\quad}D_t\leq{x_t+q_t}}&\\ p(x_t+q_t)-cq_t{\quad}{if{\quad}D_t>{x_t+q_t}}& \end{array} \right.$
即 $\phi(q_t|D_t)=p{\cdot}\min(D_t,x_t+q_t)-cq_t-h{\cdot}\max(x_t+q_t-D_t,0)$

sup：上确界

递归方程式（Bellman方程）：
$\left. \begin{aligned} R_t(x_t)&=\sup_{q_t\geq0}\mathbf{E}\{\phi(q_t|D_t)\}\\ &=\sup_{q_t\geq0}\{-cq_t+\mathbf{E}[p{\cdot}\min(D_t,x_t+q_t)-h{\cdot}\max(x_t+q_t-D_t,0)+R_{t+1}(x_{t+1})]\} \end{aligned} \right.$
其中：
$x_{t+1}=\max\{x_t+q_t-D_t,0\}$
模型的边际条件为（在最后一周期）
$R_T(x_t)=\sup_{q_T\geq0}\{-cq_T+\mathbf{E}[p{\cdot}\min(D_T,x_T+q_T)]\}$
在最优决策下， $T$ 个周期内的最优期望总利润为 $R_1(0)$