一、DRL系列-DQN+DDQN(学习笔记)

参考

DQN:https://blog.csdn.net/u013236946/article/details/72871858

DDQN:https://www.cnblogs.com/pinard/p/9778063.html

Dueling-DQN&DDQN:https://blog.csdn.net/u013236946/article/details/73161586

DQN:

每次选择动作,可能随机选择也可能选择当前Q值最大的a。

执行a,更新s。

从D中选出最小batch的transition,更新reward。(第一种情况为j+1为终点)

 θ是网络参数,求loss关于θ的梯度,更新θ。

每隔c步更新一次目标网络。(软或硬)

这里写图片描述

经验池的功能主要是解决相关性及非静态分布问题。具体做法是把每个时间步agent与环境交互得到的转移样本 (st,at,rt,st+1)(st,at,rt,st+1) 储存到回放记忆单元,要训练时就随机拿出一些(minibatch)来训练。(其实就是将游戏的过程打成碎片存储,训练时随机抽取就避免了相关性问题)

这里写图片描述

这里写图片描述

γ速率为奖励的衰变系数,也就是下一个状态s’对应的Q(s', a') 值对当前的Q值的影响;r是当前步骤的回报值

Double DQN:

传统的DQN普遍会过高估计Action的Q值,而且估计误差会随Action的个数增加而增加。如果高估不是均匀的,则会导致某个次优的Action高估的Q值超过了最优Action的Q值,永远无法找到最优的策略。

在DDQN这里,不再是直接在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中先找出最大Q值对应的动作。

然后利用这个选择出来的动作a在目标网络里面去计算目标Q值。

è¿éåå¾çæè¿°

  • 4
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值