论文笔记：Towards Robust Image Classification Using Sequential Attention Models（CVPR2020）

最新推荐文章于 2022-05-19 14:34:25 发布

置顶 Forizon

最新推荐文章于 2022-05-19 14:34:25 发布

阅读量3.3k

点赞数 3

分类专栏：论文笔记文章标签： attention

本文链接：https://blog.csdn.net/hesongzefairy/article/details/104917032

版权

论文笔记专栏收录该内容

12 篇文章 3 订阅

订阅专栏

本文是来自CVPR2020关于图像分类的文章，作者来自google的DeepMind，提到了Attention Model故记录如下：

摘要

介绍

摘要

作者希望通过受人类感知启发的注意力模型来增强现代神经网络架构。具体来说，该模型包含了一个受循环自顶向下引导的attention model。实验中，作者发现了几个关于鲁棒性和模型表现值得注意的点，第一：引入attention显著的提升了鲁棒性在ImageNet上获得更好的准确率，第二：作者证明改变attention step(glances/fixations)的数量能够有效的提升鲁棒性。第三：生成对抗模型产生的图片和普通图片有很大不同有很大的迷惑性，用生成的图片测试模型更能体现模型的鲁棒性。

介绍

作者表示，尽管这些年深度网络在图像分类这些领域应用很广泛，并且随着硬件提升，其性能还在稳步提升，但是自AlexNet文章问世之后，整个模型的结构就是一种前馈网络，加上卷积和简单的非线性，即使是目前最厉害的ResNet是也没有显著改变这种情况。毫无疑问，上述的经典模型在解决某些任务上非常有效，但是当人们刻意增加输入扰动（通常是人类都无法察觉的）就可能导致模型大概率出现错误预测。这种类型的扰动被称为adversarial example是目前研究的课题。

目前经典的神经网络模型无疑是受到人的视觉系统启发而来，早期模型中很好的体现了这一点。但是，前馈神经网络和灵长类的视觉系统还是存在一些差异，灵长类的眼睛有fovea能够以不同的空间分辨率对输入图像的不同区域采样。此外这样的视觉系统有很强的attentional bottleneck（不是很明白可能需要看参考文献）。视觉皮层中有很多反馈机制以及自顶向下的递归连接并不仅仅是一种前馈网络。同时人类也不会将图像看作是一个静态场景，而是会通过一系列扫视和注视(saccades/fixations)来探索图像，并逐步收集和整理信息。这已经被假定为深度神经网络产生错误预测的原因。

本文提出使用a soft, sequential, spatial, top-down attention mechanism(S3TA)来体现灵长类的视觉系统。作者认为该模型在生物学上是否可行并不确定，但是该模型确实能实现视觉皮层的一些功能如attentional bottleneck和连续的自顶向下控制。作者在ImageNet图像上进行了对抗性训练，表明该模型具有针对对抗性攻击的最好的鲁棒性（着重于预测梯度下降或PGD攻击）。实验表明，通过增加展开模型的步骤数量，我们可以更好地防御更强大的攻击。最后同时也是最重要的，adversarial examples通常（并不总是）包括人类可以感知和解释的全局和显著结构（如下图）。此外，攻击通常试图吸引模型对图像不同部分的关注，而不是直接干扰源图像中的主要对象。

图一：采用S3TA在PDG攻击下取得了最好的效果，并且结果是可解释的。左边图表示原图label为wallet并且采用对抗训练的ResNet和本文方法都预测正确，中间和右边的图表示250 step的PGD产生的adversarial examples，目标类是beaver。两种模型都没有能成功防御，给出了top-1输出是beaver。但是，尽管ResNet的攻击图像没有可见的可解释结构，但S3TA模型的攻击图像却包含海狸头部的突出且连贯的形状（最好放大观察）。

模型

模型顺序的查询输入，在每一个时间步上，主动地注意相关的空间信息来完善对正确label的预测。其两个组重要的组成部分是sequential nature 和 top-down attentional bottleneck（顺序性质和注意瓶颈），作者通过实验证明两个部件都是有效的。在图2中简要的展示了这两个部分。

图2：输入图像通过ResNet来生成Key-Value张量，同时将预定义的固定Spatial Basis张量分别与key和value连接。Query由LSTM的状态解码而来，并在每一个空间位置计算Query和Key的内积。之后再利用softmax来生成attention map。将attention map和Value张量逐点相乘，并将结果再空间上求和来生成Answer向量，同时该向量就是当前时间步LSTM的输入。最后将LSTM输出解码为类logit，以生成分类器的输出。每个时间步都能生成一个以上的Query。

如果想要获得模型的更多细节，作者推荐读者阅读“Towards interpretable reinforcement learning using attention augmented agents”一文。

本文模型的起点是将图像输入一个视觉网络（卷积神经网络）。作者在所有时间步上输入同一幅图片，这样ResNet的输出只需要计算一次。然后将ResNet的输出沿通道维度拆分来生成Key张量和Value张量。对于这两个张量，分别连接一个固定的Spatial Basis 张量，该张量使用傅里叶表示对空间位置进行编码。这个Spatial Basis很重要，因为我们在空间上的注意力瓶颈求和导致这些张量的空间结构消失，该Spatial Basis用于传递空间位置信息。

将自顶向下的控制器展开为几个计算步骤，将每个步骤的输入作为参数，并通过控制器处理答案以产生输出（或下一个状态）。自顶向下的控制器以LSTM为核心，上一时刻的LSTM状态通过”query network“（MLP）解码成一个或几个Query向量。每一个Query的通道数和Key张量连接Spatial Basis之后的通道数相同。在每个空间位置取Query向量与Key和Spatial Basis张量之间的内积，从而生成关注logit的单个通道图。然后通过Softmax来生成这个Query的attention map。将所得的attention map与Value张量（Spatial Basis）逐点相乘（所有通道使用同一个attention map），相乘后的张量在整个空间维度上求和，每个Query生成一个answer向量，这些answer将作为当前时间步LSTM的输入（如果使用多个answer，则串联起来）。最终，最后一个LSTM输出通过MLP解码为类logit。损失函数用cross-entropy 。该模型是可微的，包括ResNet在内可进行端到端的的对抗性训练(section4、5)。