Value-based methods for deep RL
目录Q-learningFitted Q-learningDeep Q-networks(DQN)Double DQN
Q-learning
Q-learning的基础版本是使用一个lookup table of values Q(s,a),每个state-action pair有一个条目。
使用Bellman equation可以求解出最优的Q-value function。此时需要满足的条件是:
state-action pair是离散的。
在所有state中重复采样所有的action(保证足够的ex
原创
2020-08-12 13:28:49 ·
161 阅读 ·
0 评论