数据结构与算法笔记(十三)动态规划

动态规划

从数学的视角来看,动态规划是一种运筹学方法,是在多轮决策过程中的最优方法。

从分治法的视角来看,每个子问题必须相互独立。但在多轮决策中,这个假设显然不成立。这也是动态规划方法产生的原因之一

动态规划的基本方法

动态规划问题没有标准化的解题方法,但它有一些宏观层面通用的方法论:

下面的 k 表示多轮决策的第 k 轮:

  • 分阶段,将原问题划分成几个子问题。一个子问题就是多轮决策的一个阶段,它们可以是不满足独立性的。
  • 找状态,选择合适的状态变量 Sk。它需要具备描述多轮决策过程的演变,更像是决策可能的结果。
  • 做决策,确定决策变量 uk。每一轮的决策就是每一轮可能的决策动作,例如 D2 的可能的决策动作是 D2 -> E2 和 D2 -> E3。
  • 状态转移方程。这个步骤是动态规划最重要的核心,即 sk+1= uk(sk) 。
  • 定目标。写出代表多轮决策目标的指标函数 Vk,n。
  • 寻找终止条件。

动态规划的基本概念:

  • 策略,每轮的动作是决策,多轮决策合在一起常常被称为策略。
  • 策略集合,由于每轮的决策动作都是一个变量,这就导致合在一起的策略也是一个变量。我们通常会称所有可能的策略为策略集合。因此,动态规划的目标,也可以说是从策略集合中,找到最优的那个策略。

具有如下几个特征的问题,可以采用动态规划求解:

  1. 最优子结构。它的含义是,原问题的最优解所包括的子问题的解也是最优的。例如,某个策略使得 A 到 G
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值