三、动态规划问题的特征

动态规划算法的有效性依赖于问题本身所具有的两个重要性质:最优子结构性质和子问题重叠性质。
1
、最优子结构:当问题的最优解包含了其子问题的最优解时,称该问题具有最优子结构性质。

2
、重叠子问题:在用递归算法自顶向下解问题时,每次产生的子问题并不总是新问题,有些子问题被反复计算多次。动态规划算法正是利用了这种子问题的重叠性质,对每一个子问题只解一次,而后将其解保存在一个表格中,在以后尽可能多地利用这些子问题的解。(二)、动态规划算法的基本步骤设计一个标准的动态规划算法,通常可按以下几个步骤进行:
 

1.
划分阶段:按照问题的时间或空间特征,把问题分为若干个阶段。注意这若干个阶段一定要是有序的或者是可排序的(即无后向性),否则问题就无法用动态规划求解。
 

2.
选择状态:将问题发展到各个阶段时所处于的各种客观情况用不同的状态表示出来。当然,状态的选择要满足无后效性。
 

3.
确定决策并写出状态转移方程:之所以把这两步放在一起,是因为决策和状态转移有着天然的联系,状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。所以,如果我们确定了决策,状态转移方程也就写出来了。但事实上,我们常常是反过来做,根据相邻两段的各状态之间的关系来确定决策。
 

4.
写出规划方程(包括边界条件):动态规划的基本方程是规划方程的通用形式化表达式。一般说来,只要阶段、状态、决策和状态转移确定了,这一步还是比较简单的。3

动态规划的主要难点在于理论上的设计,一旦设计完成,实现部分就会非常简单。根据动态规划的基本方程可以直接递归计算最优值,但是一般将其改为递推计算,实现的大体上的框架如下: 

标准动态规划的基本框架frame>

1. 
fn+1(xn+1)初始化; {边界条件}
2. for k:=n downto 1 do 
3. for 
每一个xkXk do
4. for 
每一个ukUk(xk) do
 begin
5. fk(xk):=
一个极值; {∞或-∞}
6. xk+1:=Tk(xk,uk); {
状态转移方程}
7. t:=φ(fk+1(xk+1),vk(xk,uk)); {
基本方程(9)}
8. if t
fk(xk)更优 then fk(xk):=t; {计算fk(xk)的最优值}
 end; 
9. t:=
一个极值; {∞或-∞}
10. for 
每一个x1X1 do
11. if f1(x1)
t更优 then t:=f1(x1); {按照10式求出最优指标}
12. 
输出t;
但是,实际应用当中经常不显式地按照上面步骤设计动态规划,而是按以下几个步骤进行: 

1. 
分析最优解的性质,并刻划其结构特征。 

2. 
递归地定义最优值。 

3. 
以自底向上的方式或自顶向下的记忆化方法(备忘录法)计算出最优值。 

4. 
根据计算最优值时得到的信息,构造一个最优解。 

步骤(1)--(3)是动态规划算法的基本步骤。在只需要求出最优值的情形,步骤(4)可以省略,若需要求出问题的一个最优解,则必须执行步骤(4)。此时,在步骤(3)中计算最优值时,通常需记录更多的信息,以便在步骤(4)中,根据所记录的信息,快速地构造出一个最优解。 

<!-- #EndEditable -->
(三)、动态规划概述
1.
基本思想:将问题分解为若干小问题,解子问题,然后从子问题得到原问题的解。 

2.
特点:将问题分解为子问题,这些子问题往往不相互独立。(如果可以用分治法求解,分解的子问题太多,因此,用分治法时间代价太高,消耗指数时间)

3.
且某些子问题可能被重复多次计算,因此将计算过的子问题的结果保存。一般,放入表中。

4.
应用:往往求解具有某种最优性质的问题,此类问题往往具有多个解,我们要找到具有最优值的那个解。

5.
步骤:
 
找出最优解的性质,刻画其特征;
 
递归地定义最优值;
 
以自底向上的方式计算出最优值;
 
根据计算最优值时得到的信息,构造一个最优解。(四)、动态规划问题中的术语
阶段:把所给求解问题的过程恰当地分成若干个相互联系的阶段,以便于求解,过程不同,阶段数就可能不同.描述阶段的变量称为阶段变量。在多数情况下,阶段变量是离散的,用k表示。此外,也有阶段变量是连续的情形。如果过程可以在任何时刻作出决策,且在任意两个不同的时刻之间允许有无穷多个决策时,阶段变量就是连续的。
在前面的例子中,第一个阶段就是点A,而第二个阶段就是点A到点B,第三个阶段是点B到点C,而第四个阶段是点C到点D 

状态:状态表示每个阶段开始面临的自然状况或客观条件,它不以人们的主观意志为转移,也称为不可控因素。在上面的例子中状态就是某阶段的出发位置,它既是该阶段某路的起点,同时又是前一阶段某支路的终点。
在前面的例子中,第一个阶段有一个状态即A,而第二个阶段有两个状态B1B2,第三个阶段是三个状态C1C2C3,而第四个阶段又是一个状态D
过程的状态通常可以用一个或一组数来描述,称为状态变量。一般,状态是离散的,但有时为了方便也将状态取成连续的。当然,在现实生活中,由于变量形式的限制,所有的状态都是离散的,但从分析的观点,有时将状态作为连续的处理将会有很大的好处。此外,状态可以有多个分量(**情形),因而用向量来代表;而且在每个阶段的状态维数可以不同。
当过程按所有可能不同的方式发展时,过程各段的状态变量将在某一确定的范围内取值。状态变量取值的集合称为状态集合。

无后效性:我们要求状态具有下面的性质:如果给定某一阶段的状态,则在这一阶段以后过程的发展不受这阶段以前各段状态的影响,所有各阶段都确定时,整个过程也就确定了。换句话说,过程的每一次实现可以用一个状态序列表示,在前面的例子中每阶段的状态是该线路的始点,确定了这些点的序列,整个线路也就完全确定。从某一阶段以后的线路开始,当这段的始点给定时,不受以前线路(所通过的点)的影响。状态的这个性质意味着过程的历史只能通过当前的状态去影响它的未来的发展,这个性质称为无后效性。

决策:一个阶段的状态给定以后,从该状态演变到下一阶段某个状态的一种选择(行动)称为决策。在最优控制中,也称为控制。在许多间题中,决策可以自然而然地表示为一个数或一组数。不同的决策对应着不同的数值。描述决策的变量称决策变量,因状态满足无后效性,故在每个阶段选择决策时只需考虑当前的状态而无须考虑过程的历史。
决策变量的范围称为允许决策集合。

策略:由每个阶段的决策组成的序列称为策略。对于每一个实际的多阶段决策过程,可供选取的策略有一定的范围限制,这个范围称为允许策略集合。允许策略集合中达到最优效果的策略称为最优策略。
给定k阶段状态变量x(k)的值后,如果这一阶段的决策变量一经确定,第k+1阶段的状态变量x(k+1)也就完全确定,即x(k+1)的值随x(k)和第k阶段的决策u(k)的值变化而变化,那么可以把这一关系看成(x(k)u(k))x(k+1)确定的对应关系,用x(k+1)=Tk(x(k),u(k))表示。这是从k阶段到k+1阶段的状态转移规律,称为状态转移方程。
最优性原理:作为整个过程的最优策略,它满足:相对前面决策所形成的状态而言,余下的子策略必然构成最优子策略

最优性原理:实际上是要求问题的最优策略的子策略也是最优。让我们通过对前面的例子再分析来具体说明这一点:从AD,我们知道,最短路径是AàB1àC2àD,这些点的选择构成了这个例子的最优策略,根据最优性原理,这个策略的每个子策略应是最优:AàB1àC2AC2的最短路径,B1àC2àD也是B1D的最短路径……——事实正是如此,因此我们认为这个例子满足最优性原理的要求。(五)、标号法
 
标号法是一种最佳算法,多用于求图的最短路问题。
 
一、标号法的概念: 
 
所谓标号,是指与图的每一个顶点相对应的一个数字。标号法可以说是动态规划,它采用顺推的方法,对图的每一边检测一次,没有重复的回溯搜索,因此标号法是一种最佳算法。 

 
二、标号法的算法流程: 
 
现有一图G,求从起点Vs到终点Ve的最短距离。 设:
 Sum(j)———
顶点Vj的标号,代表的是VsVj的最短距离。
 Vj
已标味着VsVj的最短路以及这条路径的长度已求出。 
 M(i,j)———Vi
Vj的非负长度。 
 H(j)———
顶点Vj的前趋结点。 标号法的算法流程如下:

 sum
s←0
 ↓
 Vs
进入队列L
 ↓ 
 -----→
移出队列L的队首Vk←-----
 | ↓ |
 | Vk
是不是Ve------------------|---→计算结束打印路径
 | N
 Y | 
 | ↓ |
 | 
Vk扩展出结点Vj |
 | 
VkVj之间相连) | 
 | Sj←Sum(k)+M(k
j) |
 | ↓ |
 | Sj
小于Sumj |
 | | |
 | Y | N |
 | | --------------------
 | |
 | ↓
 | Sum
j←Sj
 | H
j← Vk
 | Vj
加入队列L并对队列LSum值由小到大排序
 | ↓
 ---------------

注意:1.只有两个顶点间的距离为非负时,才可用标号法。 2.只有队列的首结点是目标结点时,才可停止计算。否则得出的不一定是最优解。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值