晴晴晴 讲 DQN 的发展史【入门级】


Q-learning

在这里插入图片描述
在这里插入图片描述

Sarsa

在这里插入图片描述
在这里插入图片描述

Sarsa(λ)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Deep Q Network

在这里插入图片描述

Nature DQN

在这里插入图片描述

状态空间比较小的情况下用 q learning 还是可以的,但是在复杂的情况下,例如一个视频游戏,它的状态空间非常大,如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。
这个时候我们就想不是直接的用迭代的方式去计算扣只,而是找到一个最优的 q 函数
找这个最优的q函数的方法就是用神经网络。
我们用一个深度神经网络来为每一组状态行为估计它们的 q 值,进而近似的估计出最优的 q 函数。
将 Q learning 和深度神经网络相结合就是 DQN
在这里插入图片描述
在这里插入图片描述

Double DQN

在这里插入图片描述

简单来说,DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步,来达到消除过度估计的问题

在这里插入图片描述

Prioritized Experience Replay (DQN)

在这里插入图片描述
DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这个博客讲的特别好:https://www.cnblogs.com/pinard/p/9797695.html

Dueling DQN

前面讲到的DDQN中,我们通过优化目标Q值的计算来优化算法,在Prioritized Replay DQN中,我们通过优化经验回放池按权重采样来优化算法。而在Dueling DQN中,我们尝试通过优化神经网络的结构来优化算法。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

感谢大佬!!!https://www.cnblogs.com/pinard/category/1254674.html 啃完他的这些文章!!绝对有用!!!太赞了!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值