一、回顾
一、值函数、贝尔曼方程、贝尔曼最优方程
二、最优值函数
三、ADP
3.1 VI
3.2 PI
四、ADP可以使用的条件
五、Q函数
六、解决问题的方案
(指的是解决“四 ADP可以使用的条件”中的三个问题)
二、期望的计算
一、Markov过程的便利性
1.1 平稳分布
1.1.1 一定存在平稳分布
1.1.2 P为分块矩阵↔平稳分布不唯一
1.2 平稳分布的便利性
二、随机逼近方法
2.1 增量更新与学习率
2.2 随机逼近
2.2.1 不动点迭代的形式θ=f(θ)
2.2.2 求解0=f(θ)
2.2.3 SGD
2.2.3 强化学习:DP在随机逼近框架下的实现