1. 蒙特卡洛搜索算法
2. 有限马尔可夫决策过程
3. Dynamic Programming
4. Temporal-Difference Learning
5. Boot-strapping
6. Tabular Methods
7. DQN
1. 蒙特卡洛搜索算法
2. 有限马尔可夫决策过程
3. Dynamic Programming
4. Temporal-Difference Learning
5. Boot-strapping
6. Tabular Methods
7. DQN