1. 对于MDP(马尔科夫决策过程)的理解:
https://www.cnblogs.com/jinxulin/p/3517377.html
https://zhuanlan.zhihu.com/p/31158119
3. 莫烦的博客,关于epsilon greedy policy的讨论(链接)。
4. 莫烦的博客,Q learning(链接) 和 SARSA(链接)。
5. 一个强化学习的基础例子,cliff walking的代码实现(链接),可以配合Q-learning 和 SARSA进行学习。
6. Deep Q Network(DQN)的英文文章(链接),他还有前两篇文章part1和part2。
Why DQN? 当state的种类过多的时候,我们很难建立一个Q table来存储全部的states,就可以用神经网络来实现。
1) 我们可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样我们就没必要在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值。
2) 还有一种形式的是这样, 我们也能只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。
Ref: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-1-A-DQN/