来源
大部分来源于B站视频李宏毅2020-深度学习,少部分来源CSDN,简书,知乎。
目录
0.强化学习概述+policy based+value based
1.贝尔曼方程(Bellman equation)
2.策略梯度(Policy Gradient)+Gradient Ascent
3.Proximal Policy Optimization(PPO)+on/off policy
4.蒙特卡洛(Monte-Carlo, MC)+时序差分(Temporal Difference, TD)
5.Q-learning
6.DQN(Deep Q-Network)+Double DQN+Dueling DQN
7.连续空间上的Q-learning
8.Actor-Critic+A2C+A3C