Q-learning
Q-learning的基础版本是使用一个lookup table of values Q(s,a),每个state-action pair有一个条目。
使用Bellman equation可以求解出最优的Q-value function。此时需要满足的条件是:
- state-action pair是离散的。
- 在所有state中重复采样所有的action(保证足够的exploration)。
使用Bellman equation的局限性:当state-action space的维度很高时计算复杂度高。
Fitted Q-learning
引入了神经网络参数θ。输入state和action,得到Q(s,a;θ)。