只是笔记,提炼了很多。
1、对象和特点:多阶段决策过程,动态包括状态和决策。
2、无后效性(马尔科夫性)指系统从某阶段后的发展完全由本阶段所处的状态及其往后的决策决定,与系统以前的状态和决策无关。
3、定期和不定期的多阶段决策过程。
4、顺序:枚举、隐形枚举(在有效的条件下枚举)。
逆序、会较方便。
5、综合考虑直接效果、简介效果。
6、状态转移方程。
7、建立动态规划模型的基本条件:
1)状态变量的特点:描述过程的变化、无后效性、可知性。
2)决策变量及允许决策集合。
3)状态转移函数。
4)目标函数的关系满足递推性。
8、每个最优策略只能有最优子策略构成。
9、一般当初始状态给定时用逆推比较方便,当终止状态给定时用顺推。
10、函数迭代和策略迭代。