DQN(基本概念和进阶技巧）

shinel`l

已于 2022-07-24 00:14:08 修改

阅读量3.1k

点赞数

分类专栏：深度学习深度学习基础文章标签：深度学习机器学习神经网络

于 2022-07-24 00:12:49 首次发布

本文链接：https://blog.csdn.net/qq_44898314/article/details/125953566

版权

深度学习基础同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

#DQN

DQN是指基于深度学习的Q-learning算法，主要结合了价值函数近似（Value Function Approximation）与神经网络技术，并采用了目标网络和经历回放的方法进行网络的训练。在Q-learning中，使用表格来存储每个状态s下采取动作a获得的奖励，即状态-动作值函数Q（s,a）。

为了在连续的状态空间中计算价值函数 $Q^{\pi }\left ( s,a \right )$ ,我们可以用一个函数 $Q_{\varnothing }\left ( s,a \right )$ 来表示近似计算，称为价值函数近似。其中，s,a分别是状态s和动作a的向量表示；函数 $Q_{\varnothing }\left ( s,a \right )$ 通常是一个参数为 $\o$ 的函数，如神经网络，输出一个实数，称为Q网络（Q-network）。

DQN算法的核心是维护Q函数并使用进行决策。 $Q^{\pi }\left ( s,a \right )$ 为在该策略 $\pi$ 下的动作价值函数，每次到达一个状态 $s_{t}$ 之后，遍历整个动作空间，使用让 $Q^{\pi }\left ( s,a \right )$ 最大的动作作为策略：

$a_{t}=arg_{a} maxQ^{\pi }(s_{t},a)$ ，DQN采用贝尔曼方程来迭代更新 $Q^{\pi }\left ( s,a \right )$ ：

通常在简单任务上，使用于全连接神经网络来拟合 $Q^{\pi }$ ，但是在较为复杂的任务上，会使用卷积神经网络来拟合从图像来拟合从图像到价值函数的映射。DQN只能处理有限动作值，通常用于处理离散动作空间的任务。

#DQN进阶技巧

tip 1：Double DQN:

tip 2：Dueling DQN

tip 3: Prioritized Experience Replay

tip 4: Distributional Q-function

tip 5: rainbow

(详细代码自看）

（其他之后再补……）

shinel`l

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
DQN(基本概念和进阶技巧）

与神经网络技术，并采用了目标网络和经历回放的方法进行网络的训练。在Q-learning中，使用表格来存储每个状态s下采取动作a获得的奖励，即状态-动作值函数Q（s,a）。，但是在较为复杂的任务上，会使用卷积神经网络来拟合从图像来拟合从图像到价值函数的映射。DQN只能处理有限动作值，通常用于处理离散动作空间的任务。其中，s,a分别是状态s和动作a的向量表示；DQN算法的核心是维护Q函数并使用进行决策。的函数，如神经网络，输出一个实数，称为。下的动作价值函数，每次到达一个状态。之后，遍历整个动作空间，使用让。.
复制链接

扫一扫

专栏目录