动态规划初步

最新推荐文章于 2024-03-30 22:41:56 发布

qq_43632924

最新推荐文章于 2024-03-30 22:41:56 发布

阅读量136

点赞数

本文链接：https://blog.csdn.net/qq_43632924/article/details/88856078

版权

动态规划的实质是通过多阶段决策过程解决最优化问题，将每个问题分为若干个相互联系的阶段，在它的每一阶段都需要做出决策，这就是动态规划与贪心算法的区别，贪心算法是以一种贪心规则进行最优运算，但往往得到的结果并不是问题的最优解，而动态规划则不同，动态规划是每一步都有一个决策，保证了最优解是我们要找的整个问题的最优解，下面介绍一下动态规划的基本流程：

1.阶段和阶段变量：

意为将整个问题分为数个阶段，是指这样的一类特殊的活动过程，问题可以按照时空的特殊顺序分解成若干的互联系阶段，在每一个阶段都要做出决策，全部过程的决策就构成了整个问题。我们需要把整个问题规划分成若干个相互联系的阶段，我们可以用一些阶段变量来描述，通常用k表示，根据时空特点的顺序划分出的，同时阶段的划分要便于把问题转化为多阶段决策的过程。

2.状态和状态变量

某一阶段的出发位置称为使状态，一个阶段有若干个状态，比如a1，a2，a3....如此表示，状态构成了每一阶段，我们通常用不同的方法选择状态的最优值来找到阶段的最优解，状态变量是用来描述状态的变量，能够衡量状态的量根据题目有很多种，假如是求路程的，那么路程的量则是状态变量。

3.决策，决策变量，决策允许集合

对问题的处理的每种选择做出的选择性行动就称为决策。既从每一阶段的状态出发，通过一次选择性的行动转移至下一阶段相应的状态，既我们以一种选择方式，将各种状态选出阶段最优解，在通过各决策的最优解选出整个问题的最优解，而要通过选择也要通过衡量的标准，通过决策变量来描述，称这种变量为决策变量，。在实际问题当中，决策变量的取值往往限制在某一个范围之内，这个范围称为允许决策集合。

4.策略与最优策略

所有阶段依次排列构成问题的全过程，全过程各阶段决策变量所组成有序总体称为策略，我们可以通过策略允许的集合中找出最优效果的策略称为最优策略。既我们所要得到的结果。

5.状态转移方程

前一阶段的终点就是后一阶段的起点，对前一阶段的状态做出的某种选择得出的决策作为下一决策的起点进行运算，这样最终得到的结果就是我们想要的整个问题的最优值。

动态规划要有的两个性质：

1.动态规划的最优化原理：无论过去的状态与决策如何，对前面的决策形成的状态，余下的各决策必须构成最优策略的性质。

2.动态规划的无后性原则：某阶段选择的状态一旦确定，对于后续的决策的状态不会有影响。

不能划分阶段，划分阶段不能找最优化状态，不具备无后性原则的问题都无法使用动态规划！！！