DQN、DDQN、Dueling DQN、PER DQN

YYYa77

已于 2022-04-30 20:39:36 修改

阅读量2.8k

点赞数 2

分类专栏：强化学习文章标签：算法

于 2022-04-29 13:23:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a999999123/article/details/124493501

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

DQN

在这里插入图片描述

DDQN（Double DQN）

DQN中的q值总是被高估了
在这里插入图片描述
DQN中使用一个神经网络Q，计算每一个action的的Q值，选择Q值最大的action加上rt
DDQN中使用两个神经网络Q、Q’，使用Q计算action的Q值，选择Q值最大的action，使用Q’计算被选择action的Q’值。

Dueling DQN

相比于DQN只更改了网络的架构
在这里插入图片描述
DQN中的Q是直接输出一个Q值
Queling DQN是将输出分为价值函数和动作函数，价值函数输出一个实数，表示对当前局势的价值量，动作函数输出每个动作的价值。
这样的更改后，更新更有效率

加layer normalization

PER（Prionritized Reply）

在这里插入图片描述
如果有一些data非常好，td error比较大的，代表train的不太好，所以给他比较大的几率被采样到

资料

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
DQN、DDQN、Dueling DQN、PER DQN

DQNDDQN（Double DQN）DQN中的q值总是被高估了DQN中使用一个神经网络Q，计算每一个action的的Q值，选择Q值最大的action加上rtDDQN中使用两个神经网络Q、Q’，使用Q计算action的Q值，选择Q值最大的action，使用Q’计算被选择action的Q’值。Dueling DQN相比于DQN只更改了网络的架构DQN中的Q是直接输出一个Q值Queling DQN是将输出分为价值函数和动作函数，价值函数输出一个实数，表示对当前局势的价值量，动作函数输出每
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。