DQN结构—Evaluation Network和Target Network

最新推荐文章于 2024-08-19 10:00:34 发布

No Knownledge

最新推荐文章于 2024-08-19 10:00:34 发布

阅读量1.8k

点赞数 36

分类专栏： Reinforcement Learning 文章标签： DQN 评估网络目标网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingmuluoyang/article/details/139930919

版权

在深度Q网络（Deep Q-Network, DQN）中，Evaluation Network（评估网络）和Target Network（目标网络）是两个重要的组成部分，它们的作用和差异如下：

Evaluation Network（评估网络）

作用：评估网络用于估计当前状态下所有可能动作的Q值，并选择最优的动作。
更新方式：评估网络的参数会在每一步通过梯度下降法进行更新，利用经验回放（Replay Buffer）中的数据来计算损失并反向传播进行优化。
特点：由于评估网络的参数频繁更新，它可以快速适应新的经验数据，从而更好地估计Q值。

Target Network（目标网络）

作用：目标网络用于生成目标Q值（Target Q-value），这些目标Q值用于计算评估网络的损失函数。
更新方式：目标网络的参数不会在每一步都更新，而是每隔固定的步数（例如每1000步）才会被更新一次，这个更新是将评估网络的参数复制到目标网络中。
特点：由于目标网络的参数更新频率较低，它提供了一个相对稳定的目标Q值，有助于减缓评估网络训练过程中的波动和不稳定性。

差异与相互关系

更新频率：
- 评估网络

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。