DQN相关知识总结及演员-评论员算法介绍（DataWhale组队学习笔记）

最新推荐文章于 2024-01-03 12:03:08 发布

Savarus

最新推荐文章于 2024-01-03 12:03:08 发布

阅读量517

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Savarus/article/details/126560299

版权

DQN基本概念及相关技巧

DQN（Deep Q-network）即深度Q网络，通过结合神经网络技术和价值函数近似，采用目标网络和经历回放的方法来进行网络的训练。

价值函数近似

在面对现实中的强化学习任务时，我们所遇到的状态空间往往是连续的，存在无穷多个状态，我们进行策略迭代算法过程中，再使用Q-表格的方法显然很难满足训练的需求。我们通过神经网络，来实际训练一个函数，从而避免了存储Q-表格的需求。

价值函数近似方法：

$Q_{\phi}(s,a){\approx}Q_{\pi}(s,a)$

其中 $\phi$ 为Q函数的参数，通过神经网络来训练。

策略迭代算法中，最大化Q-表格的部分转化为训练近似Q函数；价值迭代算法中，依然可以进行值函数的训练，因此不需要价值函数近似。

目标网络

在进行函数更新时，每一个状态的转移 $s_t{\rightarrow}s_{t+1}$ 都会导致Q函数的变化，在神经网络中，函数的变化意味着梯度的不断变化，在上一个函数的梯度上升部分，在下一个函数有可能反而是梯度下降的部分。因此Q函数的不断变化导致网络的训练来回反复，很难高效的收敛。

为此，我们固定住一个目标网络，在多步迭代过程中使用同一个目标Q函数，让其稳定的进行训练，在进行n步后，再更新Q函数。n是一个超参数，在目标网络收敛时更新Q函数应该是一个比较好的时机，但有时为了让下一次的收敛更快，提前更新Q函数可能会带来更好的效果。

探索

在我们进行函数迭代的过程中，在迭代早期，获得高奖励的策略更可能会被更多的采样，这样很可能导致某些策略从未被采样到，从而缺失了对这些策略的评估。为了避免这个问题，我们在探索的早期采用一些随机性来采样到更多的策略。

$\varepsilon -$ 贪心方法会以 $\varepsilon$ 的概率进行随机的探索。

玻尔兹曼探索用系数T来控制抽样的概率模型： $\pi(a|s)=\frac{e^{Q(s,a)/T}}{\sum_{a'{\in}A}e^{Q(s,a')/T}}$

经验回放

我们在训练过程中，演员按照策略 $\pi$ 与环境交互一个周期的时间是很长的，我们通过将收集的数据放到一个数据缓冲区中，每次训练从中抽取一个批量的数据来训练，达到重复利用数据的效果，从而使得训练的性能更好。保存到缓冲区的数据会在容量满时替换掉旧数据，同时不会保存重复的数据。

DQN进阶技巧

Double DQN

在策略迭代过程中，我们每次通过 $\mathop{\mathrm{argmax}}\limits_{a}{Q(s_t,a)}$ 找到的最优策略，在计算Q函数时，总是 ${\max}Q(s_t,a)+r_t$ ，如果网络的误差使得某项被高估后，这一个被高估的部分就永远不会消失，导致最终计算出来的Q函数总是高于实际的值。为此我们引入另一个Q-网络。