DQN结构—Evaluation Network和Target Network

在深度Q网络(Deep Q-Network, DQN)中,Evaluation Network(评估网络)和Target Network(目标网络)是两个重要的组成部分,它们的作用和差异如下:

Evaluation Network(评估网络)

  • 作用:评估网络用于估计当前状态下所有可能动作的Q值,并选择最优的动作。
  • 更新方式:评估网络的参数会在每一步通过梯度下降法进行更新,利用经验回放(Replay Buffer)中的数据来计算损失并反向传播进行优化。
  • 特点:由于评估网络的参数频繁更新,它可以快速适应新的经验数据,从而更好地估计Q值。

Target Network(目标网络)

  • 作用:目标网络用于生成目标Q值(Target Q-value),这些目标Q值用于计算评估网络的损失函数。
  • 更新方式:目标网络的参数不会在每一步都更新,而是每隔固定的步数(例如每1000步)才会被更新一次,这个更新是将评估网络的参数复制到目标网络中。
  • 特点:由于目标网络的参数更新频率较低,它提供了一个相对稳定的目标Q值,有助于减缓评估网络训练过程中的波动和不稳定性。

差异与相互关系

  1. 更新频率

    • 评估网络:在每一步都进行更新,参数变化频繁。
    • 目标网络:参数在固定间隔才更新一次,保持一定的稳定性。
  2. 作用机制

    • 评估网络:用于选择动作,即根据当前状态估计每个动作的Q值,然后选择最大Q值对应的动作。
    • 目标网络:用于计算目标Q值,用来指导评估网络的更新,避免评估网络的目标不断变化带来的不稳定。
  3. 参数共享

    • 评估网络和目标网络:在固定间隔时,目标网络的参数是直接从评估网络复制过来的,这使得两者在一段时间内参数相同,但之后评估网络的参数会继续更新,而目标网络的参数保持不变,直到下一次复制。

具体实现中的工作机制

在DQN的训练过程中,具体步骤如下:

  1. 经验回放:从Replay Buffer中随机采样一批经验样本。
  2. 评估网络更新
    • 对于每个经验样本,使用评估网络计算当前状态下每个可能动作的Q值。
    • 选择当前状态下的最优动作。
    • 计算目标Q值,目标Q值是由目标网络计算的,即下一状态下的最大Q值加上即时奖励。
  3. 计算损失:将评估网络的Q值与目标Q值之间的差异作为损失进行反向传播。
  4. 更新参数:使用梯度下降法更新评估网络的参数。
  5. 同步网络:每隔固定步数,将评估网络的参数复制到目标网络中。

图示说明

为了更清楚地理解,可以用一个简单的图示表示两个网络的关系和工作流程:

经验回放
    |
    V
+-------------------+
|   采样经验样本    |
+-------------------+
    |
    V
+-------------------------+        +---------------------------+
|  评估网络 Q(s, a; θ)    | -----> |  选择最优动作 argmax Q    |
+-------------------------+        +---------------------------+
    |                                     |
    |                                     |
    |                                     V
    |                            +---------------------------+
    |                            |  目标网络 Q'(s', a'; θ')  |
    |                            +---------------------------+
    |                                     |
    V                                     |
+-------------------------+               |
|   计算当前Q值与目标Q值   |<--------------+
|       之间的差异        |
+-------------------------+
    |
    V
+---------------------------+
|   更新评估网络参数 θ      |
+---------------------------+
    |
    V
+---------------------------+
| 每隔固定步数同步参数 θ'   |
+---------------------------+

  • 34
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值