一、回顾
一、值函数、贝尔曼方程、贝尔曼最优方程
![在这里插入图片描述](https://img-blog.csdnimg.cn/ef2de5e3c04f46919a3b472146b53728.png)
二、最优值函数
三、ADP
3.1 VI
3.2 PI
![在这里插入图片描述](https://img-blog.csdnimg.cn/10ab4034ab4d4c88ba06bfe96eea0b52.png)
四、ADP可以使用的条件
![在这里插入图片描述](https://img-blog.csdnimg.cn/6df349bcc9984d91af8802e8d535fff3.png)
五、Q函数
六、解决问题的方案
(指的是解决“四 ADP可以使用的条件”中的三个问题)
![在这里插入图片描述](https://img-blog.csdnimg.cn/405c07a153654d32b9ef7ee3d99a787b.png)
二、期望的计算
一、Markov过程的便利性
1.1 平稳分布
1.1.1 一定存在平稳分布
1.1.2 P为分块矩阵↔平稳分布不唯一
1.2 平稳分布的便利性
![在这里插入图片描述](https://img-blog.csdnimg.cn/3a3aed88144549569994733fc7ac6a33.png)
二、随机逼近方法
2.1 增量更新与学习率
2.2 随机逼近
2.2.1 不动点迭代的形式θ=f(θ)
2.2.2 求解0=f(θ)
2.2.3 SGD
2.2.3 强化学习:DP在随机逼近框架下的实现
![在这里插入图片描述](https://img-blog.csdnimg.cn/81d866c9fac8405da5d146666f28f3d5.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/8fe86b2f3c954c9184f31340237d32d8.png)