晴晴晴讲 DQN 的发展史【入门级】

最新推荐文章于 2024-05-06 01:35:51 发布

晴晴_Amanda

最新推荐文章于 2024-05-06 01:35:51 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38293297/article/details/108286699

版权

强化学习专栏收录该内容

28 篇文章

订阅专栏

文章目录

Q-learning
Sarsa
Sarsa(λ)
Deep Q Network
Nature DQN
Double DQN
Prioritized Experience Replay (DQN)
Dueling DQN

Q-learning

在这里插入图片描述

Sarsa

在这里插入图片描述

Sarsa(λ)

在这里插入图片描述

Deep Q Network

在这里插入图片描述

Nature DQN

在这里插入图片描述

当状态空间比较小的情况下用 q learning 还是可以的，但是在复杂的情况下，例如一个视频游戏，它的状态空间非常大，如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。
这个时候我们就想不是直接的用迭代的方式去计算扣只，而是找到一个最优的 q 函数。
找这个最优的q函数的方法就是用神经网络。
我们用一个深度神经网络来为每一组状态行为估计它们的 q 值，进而近似的估计出最优的 q 函数。
将 Q learning 和深度神经网络相结合就是 DQN
在这里插入图片描述

Double DQN

在这里插入图片描述

简单来说，DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步，来达到消除过度估计的问题

在这里插入图片描述

Prioritized Experience Replay (DQN)

在这里插入图片描述
DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

在这里插入图片描述

这个博客讲的特别好：https://www.cnblogs.com/pinard/p/9797695.html

Dueling DQN

前面讲到的DDQN中，我们通过优化目标Q值的计算来优化算法，在Prioritized Replay DQN中，我们通过优化经验回放池按权重采样来优化算法。而在Dueling DQN中，我们尝试通过优化神经网络的结构来优化算法。

在这里插入图片描述

在这里插入图片描述

感谢大佬！！！https://www.cnblogs.com/pinard/category/1254674.html 啃完他的这些文章！！绝对有用！！！太赞了！！！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。