动态规划的基本概念和基本方程

最新推荐文章于 2024-04-12 14:37:21 发布

墨文昱

最新推荐文章于 2024-04-12 14:37:21 发布

阅读量2.1k

点赞数 1

分类专栏：算法文章标签：算法动态规划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42739865/article/details/114984247

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基本概念

阶段：将所有问题的过程， 按时间或空间特征分解成若干相互联系的阶段，以便按次序去求每个阶段的解。常用字母k表示。
状态：各阶段开始时的客观条件，状态用变量 $S_k$ 表示。如 $S_2=\{ A,B \}$
无后效性：当某阶段状态给定后，在这阶段以后过程的发展不受以前各段状态的影响，就是说，当前的状态是过去历史的一个完整的终结
- 过程的过去历史只能通过当前状态去影响它未来的发展
- 如果所选定的变量不具备无后效性，就不能作为状态变量来构造动态规划模型

决策：确定下一阶段的状态
表示决策的变量称为决策变量
$U_k(S_k)$ 表示第k阶段的状态为 $S_k$ 时的决策变量，它是状态变量的函数
决策变量的取值往往限制在一定范围内，我们称此范围为 允许决策集合 常用 $D_k(S_k)$ 表示
显然 $U_k(S_k) \in D_k(S_k)$

策略：各段决策确定后，整个问题的决策序列就构成一个决策序列 $P_1,n(S_1) =\{u1(s1),u_2(s_2)...,u_n(s_n) \}$
对于每个实际问题，可供选择的策略有一定的范围，称为 允许策略集合
使整个问题达到最优效果的策略就是最优策略
状态转移方程：确定过程由一个状态到另一个状态的演变过程。若给定第k阶段状态变量 $S_k$ 的值，如果该段的决策变量 $U_k(S_k)$ 一经确定，第k+1阶段的状态变量 $S_{k+1}$ 的值也就完全确定

指标函数：用来衡量所选定策略优劣的数量指标
分为两种：阶段指标函数和过程指标函数
阶段指标函数：从状态 $S_k$ 出发，采取决策 $U_k$ 时的效益。用 $V_k(S_k,U_k)$ 表示
对于一个n段决策过程，从1到n叫问题的原过程
对于一个任意给定的 $1\leq k\leq n ）$ ,从第k段到第n段的过程称为原过程的一个后部子过程
$V_{1,n}(s_1,P_{1,n})$ :表示初始状态为 $s_1$ 采用策略为 $P_{1,n}$ 时原过程的指标函数值
$V_{k,n}(s_k,P_{k,n})$ ：表示初始状态为 $s_k$ 采用策略为 $P_{k,n}$ 时后部子过程的指标函数值
最优指标函数 $f_k(S_k)$ 表示从第k段状态 $S_k$ 采用最优策略 $P_{k,n}^*$ 到过程终止时的最优指标函数值
$f_k(S_k)$ 与 $V_{k,n}(S_k,P_{k,n})$ 的关系：
$f_k(S_k) = V_{k,n}(S_k,P_{k,n}^*) = opt V_{k,n}(S_k,P_{k,n})$ opt:min或max
最优值函数表示从第k阶段的状态 $S_k$ 开始到第n阶段的终止状态的过程，采取最优策略所得到的指标函数值

例子：求从A到E的最短路问题

在这里插入图片描述

逆推解法:
基本思路：逆着阶段顺序的方向，由后向前推算。

把寻求最优策略看作连续递推过程，从最终阶段开始，逆着实际过程的进展方向逐段求解
在每一阶段求解过程中都是其后部子过程最优策略的基础上，再考虑阶段的指标函数，求出本阶段的最优策略
直到第一阶段为止

动态规划逆序解法的基本方程（都是利用了第k段和第k+1段的关系）

动态规划最优指标的递推方程，是动态规划的基本方程
$f_k(S_k) = opt\{V_k(S_k,U_k)+f_{k+1}(S_{k+1})\}$ k=n,……，2,1

$f_{n+1}(S_{n+1}) = 0$ 0表示终端（边界）条件：为了使以上的递推方程有递推的起点

动态规划基本方程的五个基本要素：

将多阶段决策过程划分成恰当的阶段
正确选取状态变量，使其满足无后效性
确定决策变量及每阶段的允许决策集合
正确写出状态转移方程
正确写出指标函数的关系

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。