Double Q-Learning 阅读记录

1、Overoptimism problem && maximization bias problem

Q学习会带来很多问题,比如会导致最大化偏差问题,使得估计的动作价值偏大。

2、Double DQN

double DQN就是为了解决上面的问题,Double DQN很简单,对于DQN的改变如下所示:

简单的理解是double-DQN,由于DQN中已经存在了target network,不需要构造额外的网络了,直接用target network去代表第二个Q表,其更新的公式如上图(黄色标注)所示,当然更新tartget network的参数是 theta minus 而不是 theta。

3、Double DQN 编码实现

# 根据上述 公式
Q_next = self.target_network.predict(next_s_batch)

# 变成
Q_next_one = self.eval_network.predict(next_s_batch)
action_max_one = Q_next_one.argmax(axis=-1)
Q_next_two = self.target_network.predict(next_s_batch)
Q_next = Q_next_two[np.arange(Q_next_two.shape[0]), action_max_one] 

https://github.com/syyxtl/RL-learn/tree/master/MountainCar

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值