深度强化学习DQN系算法理解

最新推荐文章于 2022-11-14 19:58:12 发布

静斋

最新推荐文章于 2022-11-14 19:58:12 发布

阅读量2.2k

点赞数 1

文章标签：强化学习

本文链接：https://blog.csdn.net/jzshsh/article/details/105375369

版权

本文详细介绍了深度强化学习中的DQN算法，包括将Q-学习转化为深度学习问题、解决DL与RL结合的问题的方法，如经验回放、双网络结构（DDQN）、优先级回放和竞争网络（Dueling Network）。DQN通过神经网络拟合Q值，使用经验回放和目标网络解决样本相关性问题，而Dueling Network则将Q值分解为状态价值和动作优势，提高学习效果。

摘要由CSDN通过智能技术生成

致谢
进行DQN方法整理时，主要对原文进行了学习，并参考了几位作者的笔记，在此一并表示感谢。索引网页如下：
https://www.jianshu.com/p/6fe18d0d8822
https://www.jianshu.com/p/0fb311d96da4
https://www.cnblogs.com/pinard/p/9797695.html
https://blog.csdn.net/mike112223/article/details/92798121

【Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al. Playing Atari with Deep Reinforcement Learning. arXiv preprint arXiv:1312.5602, 2013】【Mnih, V., Kavukcuoglu, K., Silver, D. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).】【Hado van Hasselt, Arthur Guez, David Silver. Deep Reinforcement Learning with Double Q-learning. arXiv preprint arXiv: 1509.06461, 2015】

1.将原始Q-学习问题转化为深度学习问题

核心是将Q-Table的更新问题变成一个函数拟合问题，使得相近的状态得到相近的输出动作。通过更新参数 θ 使Q函数逼近最优Q值。DQN就是要设计一个神经网络结构，通过函数来拟合Q值：在这里插入图片描述