一、回顾 一、值函数、贝尔曼方程、贝尔曼最优方程 二、最优值函数 三、ADP 3.1 VI 3.2 PI 四、ADP可以使用的条件 五、Q函数 六、解决问题的方案 (指的是解决“四 ADP可以使用的条件”中的三个问题) 二、期望的计算 一、Markov过程的便利性 1.1 平稳分布 1.1.1 一定存在平稳分布 1.1.2 P为分块矩阵↔平稳分布不唯一