【RL】DQN及其各种优化算法

最新推荐文章于 2024-08-19 10:00:34 发布

BananaScript

最新推荐文章于 2024-08-19 10:00:34 发布

阅读量3.7k

点赞数 7

分类专栏： Reinforce Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43338695/article/details/104242184

版权

本文介绍了DQN（Deep Q-Learning）的基本原理，包括使用神经网络代替Q表，ReplayBuffer的概念以及DQN的流程。此外，还详细讨论了DQN的几个重要改进：NatureDQN引入目标网络稳定训练，DoubleDQN解耦Q值计算和选择，PrioritizedReplayDQN提高重要样本的采样优先级，以及DuelingDQN通过改进网络结构提升训练效率。

摘要由CSDN通过智能技术生成

博主的github链接，欢迎大家来访问~：https://github.com/Sh-Zh-7

强化学习经典算法实现地址：https://github.com/Sh-Zh-7/reinforce-learning-impl

上一篇博文的末尾，我们介绍了传统QLearning的劣势——那就是需要维护一个Q表，而对于很多状态，连续动作的情况，我们Q表的大小将会爆炸性地增长。我们微小的内存必然存不下这么大的Q表。所以我们要转换我们的思路。

其实，Q表在之前的QLearning中，只是扮演了一个函数的角色——这句话怎么理解？给定动作和状态，他会给你返回一个价值。

所以我们为什么不直接建立一个函数呢? 这样我们既可以完成Q表的任务，而且也不用爆内存。可选的函数有：线性函数，决策树，最近邻，傅里叶变换，神经网络等。神经网络作为一个universal approximator，自然成了我们的首选，使用神经网络作为函数的Qlearning，就叫Deep Q-Learning（DQN）。

1. DQN原理

既然我们要使用神经网络，那你总要指定输入和输出吧。这里我们的输入和输出总共有两种：

最低0.47元/天解锁文章

关注

7
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。