DARQN

DARQN

上述,通过增加一个捕获时间依赖性的递归层,改进了DQN架构,这称为DRQN。

  那么还能进一步改进DRQN架构吗? 是的。还可以通过在卷积层顶部增加注意力层来进一步改进DRQN架构。那么,注意力层有什么作用呢?在此,注意力就是这个词的字面意思。注意力机制广泛应用于图像文字说明、目标检测等领域。以利用神经网络对图像进行文字说明的任务为例,为了理解图像中的内容,神经网络必须关注图像中的特定对象来生成字幕。

  同理,在DRQN中增加注意力层时,可以选择并关注图像的某一小区域,这样就会减少网络的参数个数,同时也减少了训练和测试时间。但与DRQN不同之处是, DARQN中的LSTM层不仅保存用于选择下一最佳行为的先前状态信息,还将保存用于确定下一幅图像中关注区域的相关信息。

DARQN架构

DARQN的架构如图所示。

在这里插入图片描述
DARQN由3层组成:卷积层、注意力层和LSTM递归层。游戏画面作为图像输人到卷积网络,卷积网络处理图像并产生特征图,然后特征图再输人
到注意力层。注意力层将其转换成向量,并生成其线性组合,这称为上下文向量。接着,上下文向量与先前的隐态一起传递到LSTM层。LSTM层给出两个输出:一个是确定在该状态下所执行行为的Q值;另一个是帮助注意力网络确定下一个时间步所关注的图像区域,从而生成更好的上下文向量。

注意力有两种类型:

  • 软注意力:已知由卷积层产生的特征图作为注意力层的输人,然后由注意力层生成上下文向量。在软注意力情况下,这些上下文向量只是卷积层产生的所有输出(特征图)的加权平均。其中,权重是根据特征的相对重要性进行选择的。
  • 硬注意力:在硬注意力情况下,根据某一区域选择策略,仅关注时间步 t t t 时图像中的特定区域。该策略是由权重为策略参数的神经网络表征,而网络的输出是区域的选择概率。然而,硬注意力并不见得比软注意力好很多。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值