DRQN理解

什么是DRQN?

DRQN是DQN+RNN(LSTM)

为什么用DRQN?

为了解决部分可观测马尔可夫决策过程(POMDP)中难以获得全部的可观测信息这个问题
在这里插入图片描述

怎么处理?

每个图像(不同的timestep)经过3个卷积层,然后将产生的结果作为LSTM的输入,最后将LSTM的输出 输入到线性层中产生Q值
在这里插入图片描述

两种不同更新方式

Bootstrapped Sequential Updates(顺序更新)

从buffer里选一整个episode,然后从头到尾更新每一个状态Q,(每个LSTM都产生一个结果,输入到全连接layer产生对应状态Q)其中LSTM的hidden会在这一个episode中持续使用
在这里插入图片描述

Bootstrapped Random Updates:(随机更新)

还是从buffer中选一个episode,但是随机选择其中的一个时间点,然后使用与这个时间点相关的几个时间步的信息,将最后一个LSTM结果输入到全连接layer产生这个时间点的Q,这里的hidden每次训练都会清零
在这里插入图片描述

两种方式总结

注意第一种方式(顺序更新)的图,它是从timestep1开始一直到整个episode结束,输出每个timestep的Q值。而第二种方式(随机更新)目的是输出timestep x的Q值,所以需要前面一些timestep的信息。
作者在文中说明,顺序更新不符合DQN随机采样的思想;而随机更新又因为每次更新新的timestep的Q时会重置h,导致很难去学习跨时间尺度的信息。但是最后两种方式的有相同的性能,而作者为了降低复杂性使用的是随机更新方式。

题外话

在QMIX中使用了DRQN,但是Q表示的是Q(τ,a)而不是Q(s,a),在我看来DRQN中的Q仍然是Q(s,a),只不过这里的s是由一部分轨迹得到的,也可以表示为Q(τ,a)
(开组会被我导cue到这个问题)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值