dqn/deep q network

KpLn_HJL

已于 2023-01-29 12:12:09 修改

阅读量439

点赞数

分类专栏： # 强化学习文章标签：强化学习

于 2022-03-05 17:01:00 首次发布

本文链接：https://blog.csdn.net/sinat_41679123/article/details/121717600

版权

强化学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

文章目录

核心思想
细节
- experience replay
- fixed q-values

核心思想

基于q-learning，用深度神经网络，评估当前state和action组合的q值

细节

q-learning，sarsa/sarsa lambda，都只能对有限、离散的state空间及动作空间生效，对连续空间无法做table，所以考虑使用神经网络，以便 $[V(A_1), V(A_2), \dots]$ ，再按照q-learning的方式选择value最大的action
用神经网络去学习Q，即：
$Q_* = \max_\pi Q_\pi (s_t, a_t), \forall s_t \in S, a_t \in A$

dqn还有2个特性，experience replay和fixed q-values

experience replay

experience replay：保存当前走过的action, state, reward, state_，用于学习

为什么叫off-policy?
experience replay/replay buffer，dqn是off-policy的，即先用当前的policy与env做交互，把结果存入replay buffer，然后满足一定条件后，再从replay buffer里取出来trajectory后学习，更新policy。注意更新后的policy，仍然是在以前的policy sample出的trajectory上学习的，所以叫off-policy

为什么要exprience replay?
因为improve policy后，做出的action是会改变的，希望agent能学到这个变化。同时存储的trajectory可以多次学习，在real-world中cost less

fixed q-values

fixed q-values：用2个网络分别对q-target和q-predict建模，q-predict的网络实时更新，q-target的网络落后q-predict的网络

fixed q-values，2个网络，一个target network，不及时更新，一个predict network及时更新

为什么要有two networks?
为了网络稳定性
注意到更新Q值时是基于预测值 $Q^*$ 的：
$\begin{aligned} Q(s,a) &\leftarrow Q(s,a) + \alpha \delta \\ \delta &= r + \gamma Q^* - Q \end{aligned}$
这会导致如果预测值偏离，会使得Q也偏，然后就会越训越偏。所以提出了two networks来避免这个问题。有3种常见的two networks