测试环境 gym cartPole-vo
代码实现
https://github.com/cuixuage/Reinforcement_Learning/tree/master/Pytorch_basic
1.Nature DQN
延迟target NetWork更新
相当于用前期一定步数的reward来计算当前真实值
2.Double DQN
为什么我测试效果不如DQN好?
https://blog.csdn.net/u010214210/article/details/53791315
https://zhuanlan.zhihu.com/p/38434432
目的:selection和evaluation分离,减少overestimation
如果Q函数估值不准,那么每次取max会引起高估,因此用两个Q网络来解决这个问题,一个网络选择最优的action,另一个网络对其估值
Current Q_NN is used to select actions
Older Q_NN is used to evaluate actions(固定次数回合后,delayed θ更新predict NN)
<