目录
时序差分算法(Temporal-Difference Learning)
蒙特卡洛方法(Monte Carlo method)
文章
- 【博客园】MC方法在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对
https://www.cnblogs.com/pinard/p/9492980.html
- 【知乎】MC方法学习目标1. 理解Prediction和Control的差别; 2. 理解什么是first-visit和every-visit; 3. 理解什么是on-policy和off-policy; 4. 理解蒙特卡洛方法的Prediction和Control问题; Prediction和Control其实这两个名…
https://zhuanlan.zhihu.com/p/34395444
代码
时序差分算法(Temporal-Difference Learning)
文章
- 【知乎】时序差分算法学习目标理解TD(0)的预测(prediction)问题;On-policy控制(control)算法SARSA;Off-policy控制(control)算法Q-learning;TD算法相对于MC算法和DP算法的优势;简介这次要介绍的时序差分(Temporal-Difference…
https://zhuanlan.zhihu.com/p/34747205
- 【简书】时序差分算法概述 时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo Methods)的优点,从而对...https://www.jianshu.com/p/0bfeb09b7d5f
代码
- FrozenLake Enviornment example 1: sarsa
- FrozenLake Enviornment example 2: sarsa
- MountainCar example 1: qlearning
- CliffWalking example: qlearning and sarsa
策略梯度方法(Policy Gradient)
文章
- 【GitHub】策略梯度方法(写的很全面)
https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html
MADDPG