动态规划的基本概念和基本方程

基本概念
  • 阶段:将所有问题的过程, 按时间或空间特征分解成若干相互联系的阶段,以便按次序去求每个阶段的解。常用字母k表示。
  • 状态:各阶段开始时的客观条件,状态用变量 S k S_k Sk 表示。如 S 2 = { A , B } S_2=\{ A,B \} S2={A,B}
  • 无后效性:当某阶段状态给定后,在这阶段以后过程的发展不受以前各段状态的影响,就是说,当前的状态是过去历史的一个完整的终结
    • 过程的过去历史只能通过当前状态去影响它未来的发展
    • 如果所选定的变量不具备无后效性,就不能作为状态变量来构造动态规划模型
      在这里插入图片描述

  • 决策:确定下一阶段的状态
  • 表示决策的变量称为决策变量
  • U k ( S k ) U_k(S_k) Uk(Sk) 表示第k阶段的状态为 S k S_k Sk 时的决策变量,它是状态变量的函数
  • 决策变量的取值往往限制在一定范围内,我们称此范围为 允许决策集合 常用 D k ( S k ) D_k(S_k) Dk(Sk) 表示
  • 显然 U k ( S k ) ∈ D k ( S k ) U_k(S_k) \in D_k(S_k) Uk(Sk)Dk(Sk)

  • 策略:各段决策确定后,整个问题的决策序列就构成一个决策序列 P 1 , n ( S 1 ) = { u 1 ( s 1 ) , u 2 ( s 2 ) . . . , u n ( s n ) } P_1,n(S_1) =\{u1(s1),u_2(s_2)...,u_n(s_n) \} P1,n(S1)={u1(s1),u2(s2)...,un(sn)}
  • 对于每个实际问题,可供选择的策略有一定的范围,称为 允许策略集合
  • 使整个问题达到最优效果的策略就是最优策略
  • 状态转移方程:确定过程由一个状态到另一个状态的演变过程。若给定第k阶段状态变量 S k S_k Sk 的值,如果该段的决策变量 U k ( S k ) U_k(S_k) Uk(Sk) 一经确定,第k+1阶段的状态变量 S k + 1 S_{k+1} Sk+1 的值也就完全确定
    在这里插入图片描述

  • 指标函数:用来衡量所选定策略优劣的数量指标
  • 分为两种:阶段指标函数和过程指标函数
  • 阶段指标函数:从状态 S k S_k Sk 出发,采取决策 U k U_k Uk 时的效益。用 V k ( S k , U k ) V_k(S_k,U_k) Vk(Sk,Uk) 表示
  • 对于一个n段决策过程,从1到n叫问题的原过程
  • 对于一个任意给定的 K ( 1 ≤ k ≤ n ) K( 1\leq k\leq n ) K1kn,从第k段到第n段的过程称为原过程的一个后部子过程
  • V 1 , n ( s 1 , P 1 , n ) V_{1,n}(s_1,P_{1,n}) V1,n(s1,P1,n) :表示初始状态为 s 1 s_1 s1 采用策略为 P 1 , n P_{1,n} P1,n时原过程的指标函数值
  • V k , n ( s k , P k , n ) V_{k,n}(s_k,P_{k,n}) Vk,n(sk,Pk,n) :表示初始状态为 s k s_k sk 采用策略为 P k , n P_{k,n} Pk,n 时后部子过程的指标函数值
  • 最优指标函数 f k ( S k ) f_k(S_k) fk(Sk) 表示从第k段状态 S k S_k Sk 采用最优策略 P k , n ∗ P_{k,n}^* Pk,n 到过程终止时的最优指标函数值
  • f k ( S k ) f_k(S_k) fk(Sk) V k , n ( S k , P k , n ) V_{k,n}(S_k,P_{k,n}) Vk,n(Sk,Pk,n) 的关系:
  • f k ( S k ) = V k , n ( S k , P k , n ∗ ) = o p t V k , n ( S k , P k , n ) f_k(S_k) = V_{k,n}(S_k,P_{k,n}^*) = opt V_{k,n}(S_k,P_{k,n}) fk(Sk)=Vk,n(Sk,Pk,n)=optVk,n(Sk,Pk,n) opt:min或max
  • 最优值函数表示从第k阶段的状态 S k S_k Sk 开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值
例子:求从A到E的最短路问题

在这里插入图片描述

逆推解法:
基本思路:逆着阶段顺序的方向,由后向前推算。

  • 把寻求最优策略看作连续递推过程,从最终阶段开始,逆着实际过程的进展方向逐段求解
  • 在每一阶段求解过程中都是其后部子过程最优策略的基础上,再考虑阶段的指标函数,求出本阶段的最优策略
  • 直到第一阶段为止

动态规划逆序解法的基本方程(都是利用了第k段和第k+1段的关系)

动态规划最优指标的递推方程,是动态规划的基本方程
f k ( S k ) = o p t { V k ( S k , U k ) + f k + 1 ( S k + 1 ) } f_k(S_k) = opt\{V_k(S_k,U_k)+f_{k+1}(S_{k+1})\} fk(Sk)=opt{Vk(Sk,Uk)+fk+1(Sk+1)} k=n,……,2,1

f n + 1 ( S n + 1 ) = 0 f_{n+1}(S_{n+1}) = 0 fn+1(Sn+1)=0 0表示终端(边界)条件:为了使以上的递推方程有递推的起点

动态规划基本方程的五个基本要素:

  • 将多阶段决策过程划分成恰当的阶段
  • 正确选取状态变量,使其满足无后效性
  • 确定决策变量及每阶段的允许决策集合
  • 正确写出状态转移方程
  • 正确写出指标函数的关系
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值