强化学习之DQN流程详解

最新推荐文章于 2025-05-11 09:42:29 发布

茨威格的小胡子

最新推荐文章于 2025-05-11 09:42:29 发布

阅读量6.7k

点赞数 3

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ivy_yijing1115/article/details/79857992

版权

本文详细介绍了DQN（深度Q学习）算法，从Q学习基础流程开始，阐述了神经网络如何引入到Q值估计中，接着提到了DeepMind在2015年Nature论文中的两种关键改进策略：Experience Replay和Fixed Target Q-Network，最后总结了完整的DQN执行流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文的主要流程按照：

Q learning的基本流程
神经网络的引入
deepmind 2015年nature论文的两种改进策略
完整的DQN流程（参考上述论文）

来进行讲解。

1. Q learning 的基本流程

几个基础概念：

Q(s,a)--存储在状态s下动作a的Q value的矩阵，矩阵规模为num(s)*num(a);

s--状态，a--动作，r--回报值；

整个Q学习的过程是利用bellman公式的等式关系，来更新存储估计Q值的矩阵Q(s,a)，使它为智能体的动作选择提供最优的引导。

过程：

首先，当前的状态为s，要根据动作选择策略π(s)选择一个动作a，而这个π(s)所基于的参数与Q(s,a)有关。最常用的方法是ε-贪心算法，也就是每个状态有ε的概率进行探索（即随机选取），而剩下的1-ε的概率则进行利用（选取当前状态下Q值较大的那个动作）。ε一般取值较小，0.01即可。当然除了ε-greedy方法还有一些效果更好的方法。而选择的该动作a在当前状态s下的Q值，是Q(s,a)，这个Q值被认为是该状态-动作对的估计Q值。

得到动作a后，通过与环境的交互信息，使智能体1.到达s_状态2.获得回报值r。

关于回报值r的设定，最经典的办

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。