动态取值_动态规划的基本概念和基本方程

基本概念

  • 阶段:将所有问题的过程, 按时间或空间特征分解成若干相互联系的阶段,以便按次序去求每个阶段的解。常用字母k表示。
  • 状态:各阶段开始时的客观条件,状态用变量
    表示。如
  • 无后效性:当某阶段状态给定后,在这阶段以后过程的发展不受以前各段状态的影响,就是说,当前的状态是过去历史的一个完整的终结
    • 过程的过去历史只能通过当前状态去影响它未来的发展
    • 如果所选定的变量不具备无后效性,就不能作为状态变量来构造动态规划模型

2cbe32e9d4dded642f9017687969753e.png

  • 决策:确定下一阶段的状态
  • 表示决策的变量称为决策变量
  • 表示第k阶段的状态为
    时的决策变量,它是状态变量的函数
  • 决策变量的取值往往限制在一定范围内,我们称此范围为 允许决策集合 常用
    表示
  • 显然

  • 策略:各段决策确定后,整个问题的决策序列就构成一个决策序列
  • 对于每个实际问题,可供选择的策略有一定的范围,称为 允许策略集合
  • 使整个问题达到最优效果的策略就是最优策略

  • 状态转移方程:确定过程由一个状态到另一个状态的演变过程。若给定第k阶段状态变量
    的值,如果该段的决策变量
    一经确定,第k+1阶段的状态变量
    的值也就完全确定

16c685a6f5c6d098f022a936c3dc3b92.png

  • 指标函数:用来衡量所选定策略优劣的数量指标
  • 分为两种:阶段指标函数和过程指标函数
  • 阶段指标函数:从状态
    出发,采取决策
    时的效益。用
    表示
  • 对于一个n段决策过程,从1到n叫问题的原过程
  • 对于一个任意给定的K(
    ),从第k段到第n段的过程称为原过程的一个后部子过程

  • :表示初始状态为
    采用策略为
    时原过程的指标函数值
  • :表示初始状态为
    采用策略为
    时后部子过程的指标函数值
  • 最优指标函数
    表示从第k段状态
    采用最优策略
    到过程终止时的最优指标函数值

  • 的关系:

opt:min或max
  • 最优值函数表示从第k阶段的状态
    开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值

例子:求从A到E的最短路问题

76913b38c0009a8be793e5fd05bb2bc2.png

逆推解法:

基本思路:逆着阶段顺序的方向,由后向前推算。

  • 把寻求最优策略看作连续递推过程,从最终阶段开始,逆着实际过程的进展方向逐段求解
  • 在每一阶段求解过程中都是其后部子过程最优策略的基础上,再考虑阶段的指标函数,求出本阶段的最优策略
  • 直到第一阶段为止

动态规划逆序解法的基本方程(都是利用了第k段和第k+1段的关系)

动态规划最优指标的递推方程,是动态规划的基本方程

k=n,……,2,1

0表示终端(边界)条件:为了使以上的递推方程有递推的起点

动态规划基本方程的五个基本要素:

  • 将多阶段决策过程划分成恰当的阶段
  • 正确选取状态变量,使其满足无后效性
  • 确定决策变量及每阶段的允许决策集合
  • 正确写出状态转移方程
  • 正确写出指标函数的关系
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值