DARQN
上述,通过增加一个捕获时间依赖性的递归层,改进了DQN架构,这称为DRQN。
那么还能进一步改进DRQN架构吗? 是的。还可以通过在卷积层顶部增加注意力层来进一步改进DRQN架构。那么,注意力层有什么作用呢?在此,注意力就是这个词的字面意思。注意力机制广泛应用于图像文字说明、目标检测等领域。以利用神经网络对图像进行文字说明的任务为例,为了理解图像中的内容,神经网络必须关注图像中的特定对象来生成字幕。
同理,在DRQN中增加注意力层时,可以选择并关注图像的某一小区域,这样就会减少网络的参数个数,同时也减少了训练和测试时间。但与DRQN不同之处是, DARQN中的LSTM层不仅保存用于选择下一最佳行为的先前状态信息,还将保存用于确定下一幅图像中关注区域的相关信息。
DARQN架构
DARQN的架构如图所示。
DARQN由3层组成:卷积层、注意力层和LSTM递归层。游戏画面作为图像输人到卷积网络,卷积网络处理图像并产生特征图,然后特征图再输人
到注意力层。注意力层将其转换成向量,并生成其线性组合,这称为上下文向量。接着,上下文向量与先前的隐态一起传递到LSTM层。LSTM层给出两个输出:一个是确定在该状态下所执行行为的Q值;另一个是帮助注意力网络确定下一个时间步所关注的图像区域,从而生成更好的上下文向量。
注意力有两种类型:
- 软注意力:已知由卷积层产生的特征图作为注意力层的输人,然后由注意力层生成上下文向量。在软注意力情况下,这些上下文向量只是卷积层产生的所有输出(特征图)的加权平均。其中,权重是根据特征的相对重要性进行选择的。
- 硬注意力:在硬注意力情况下,根据某一区域选择策略,仅关注时间步 t t t 时图像中的特定区域。该策略是由权重为策略参数的神经网络表征,而网络的输出是区域的选择概率。然而,硬注意力并不见得比软注意力好很多。