莫烦强化学习视频笔记：第四节 4.6 Dueling DQN

最新推荐文章于 2025-08-19 15:45:25 发布

转载最新推荐文章于 2025-08-19 15:45:25 发布 · 346 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/dueling-DQN/

文章标签：

#神经网络 #人工智能

强化学习专栏收录该内容

24 篇文章

订阅专栏

本文介绍了DuelingDQN算法，它是对DeepQNetwork(DQN)的一种改进，通过将Q值分解为状态价值和动作优势两部分，加速了学习收敛。在赛车游戏的实例中，DuelingDQN展示了其在复杂决策场景中的优势，尤其在高维度动作空间中，相比标准DQN能更快地学会稳定策略。文章还提供了DuelingDQN的代码实现和与普通DQN的对比结果，显示了DuelingDQN的优越性能。

1. 要点

本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Dueling DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个Python教程开始学习.

只要稍稍修改 DQN 中神经网络的结构, 就能大幅提升学习效果, 加速收敛. 这种新方法叫做 Dueling DQN. 用一句话来概括 Dueling DQN 就是：它将每个动作的 Q 拆分成了 state 的 Value 加上每个动作的 Advantage.

2. Dueling 算法

上一个 Paper 中的经典解释图片, 上者是一般的 DQN，对长红色的网络输出在处理得到actions的Q值（短红色）。下者就是 Dueling DQN 中的 Q值神经网络了. 那具体是哪里不同了呢?

下面这个公式解释了不同之处. 原来 DQN 神经网络间接输出的是每种动作的 Q值, 而 Dueling DQN中每个动作的 Q值由两部分得到（由下面的公式确定）.

它分成了这个 state 的值, 加上每个动作在这个 state 上的 advantage（除了在这个state获得的价值外，采取每种行为会都获取的价值）. 因为有时候在某种 state, 无论做什么动作, 对下一个 state 都没有多大影响. 比如 paper 中的这张图，就可以说明这种方法的优势。

这是开车的游戏, 左边是 state value, 发红的部分证明了 state value 和前面的路线有关, 右边是 advantage, 发红的部分说明了 advantage 很在乎旁边要靠近的车子, 这时的动作会受更多 advantage 的影响. 发红的地方左右了自己车子的移动原则.

3. 更新方法

下面的修改都是基于我之前写的 DQN 代码. 这次修改的部分比较少. 我们把它们写在一块. 如果想直接看全部代码, 请戳这里.

class DuelingDQN:
    def __init__(..., dueling=True, sess=None)
        ...
        self.dueling = dueling  # 会建立两个 DQN, 其中一个是 Dueling DQN
        ...
        if sess is None:    # 针对建立两个 DQN 的模式修改了 tf.Session() 的建立方式
            self.sess = tf.Session()
            self.sess.run(tf.global_variables_initializer())
        else:
            self.sess = sess
        ...

    def _build_net(self):
        def build_layers(s, c_names, n_l1, w_initializer, b_initializer):
            with tf.variable_scope('l1'):   # 第一层, 两种 DQN 都一样
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(s, w1) + b1)

            if self.dueling:
                # Dueling DQN
                with tf.variable_scope('Value'):    # 专门分析 state 的 Value
                    w2 = tf.get_variable('w2', [n_l1, 1], initializer=w_initializer, collections=c_names)
                    b2 = tf.get_variable('b2', [1, 1], initializer=b_initializer, collections=c_names)
                    self.V = tf.matmul(l1, w2) + b2

                with tf.variable_scope('Advantage'):    # 专门分析每种动作的 Advantage
                    w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                    b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                    self.A = tf.matmul(l1, w2) + b2

                with tf.variable_scope('Q'):    # 合并 V 和 A, 为了不让 A 直接学成了 Q, 我们减掉了 A 的均值
                    out = self.V + (self.A - tf.reduce_mean(self.A, axis=1, keep_dims=True))     # Q = V(s) + A(s,a)
            else:
                with tf.variable_scope('Q'):    # 普通的 DQN 第二层
                    w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                    b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                    out = tf.matmul(l1, w2) + b2

            return out
        ...