强化学习 | D3QN原理及代码实现

行者AI

于 2021-04-15 16:54:41 发布

阅读量6k

点赞数 3

文章标签：强化学习

本文链接：https://blog.csdn.net/suiyuejian/article/details/115731031

版权

本文介绍了Dueling DQN和Double DQN，并详细阐述了D3QN（Dueling Double DQN）的算法流程与参数调优。通过结合两者的优点，D3QN在强化学习中能更准确地估算Q值。文章还分享了简单的D3QN代码实现，探讨了网络结构、内存管理、超参数设置等关键环节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首发于：行者AI

2016年Google DeepMind提出了Dueling Network Architectures for Deep Reinforcement Learning，采用优势函数advantage function，使Dueling DQN在只收集一个离散动作的数据后，能够更加准确的去估算Q值，选择更加合适的动作。Double DQN，通过目标Q值选择的动作来选择目标Q值，从而消除Q值过高估计的问题。D3QN（Dueling Double DQN）则是结合了Dueling DQN和Double DQN的优点。

1. Dueling DQN

决斗（Dueling）DQN，网络结构如图1所示，图1中上面的网络为传统的DQN网络。图1中下面的网络则是Dueling DQN网络。Dueling DQN网络与传统的DQN网络结构的区别在于Dueling DQN的网络中间隐藏层分别输出value函数 $V$ 和advantage function优势函数 $A$ ，通过： $Q(s,a;\theta,\alpha,\beta) = V(s;\theta,\beta) +$ $(A(s,a;\theta,\alpha)$ - $\over |A|$ $\sum_{} A(s,a′;\theta,\alpha) )$ 计算出各个动作对应的Q值。

图1. Dueling DQN网络结构

2. D3QN

Double DQN只在DQN的基础上有一点改动，就不在这儿介绍了，如果对DQN还不了解的话，可以戳这里。

2.1 D3QN算法流程

初始化当前 $Q$ 网络参数 $\theta$ ，初始化目标 $Q^′$ 网络参数 $\theta^′$ ,并将 $Q$ 网络参数赋值给 $Q^′$ 网络， $\theta \to \theta^′$ ，总迭代轮数 $T$ ，衰减因子 $\gamma$ ，探索率 $\epsilon$ ，目标Q网络参数更新频率 $P$ ，每次随机采样的样本数 $m$ 。
初始化replay buffer $D$
for $t =$