论文笔记:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning

论文笔记

1、提出问题

  • 现存的注意力机制模型大体上是空间的,例如对最后一个特征图的每一个位置赋予一个权值。但是这种空间注意力机制并不能有效的符合注意力机制的初衷,即:一个动态的与上下文有关系的横跨时间的特征提取器。

2、提出方法

  • 作者认为CNN具有三个非常重要的性质,channel,spatial,multilayer(通道,空间,多层)。但是现有的基于注意力机制的CNN方法大多只在网络最后一层的引入spatial attention机制,没有了hannel和multilayer这两个特性。

  • 本文提出一种新的卷积神经网络,称为SCA-CNN。引入通道注意力机制。channel-wise attention在回答“是什么”,而spatial attention是在回答“在哪儿”,二者是不一样的。通常的注意力机制只关注了第二点。

3、模型

3.1、概述

在这里插入图片描述

​ 本文采用流行的编解码器框架来生成图像字幕,其中CNN首先将输入图像编码成一个向量,然后LSTM将该向量解码成一个单词序列。本文的主要改进在CNN特征提取方面上。

SCA-CNN的整个attention的更新方式:

某一层的运算流程如下公式:

假设我们想要生成图像标题的第t个单词。

在这里插入图片描述

其中,Xl-1是调制的特征;Vl是CNN输出的特征图(卷积,然后池化,下采样或卷积); Φ \Phi Φ(.)是空间和通道方向的注意力函数(后面详细介绍); γ \gamma γ是空间和通道方向的关注权重;f(·)是调制CNN特征和关注权重的线性加权函数,应用了按元素相乘。

通过以下方式生成第t个单词:

在这里插入图片描述

其中,L是卷积层数;pt ∈ \in R|D|是概率向量,D是预先定义的包含所有描述单词的字典;yt-1是上一个时刻输出的单词。

但上式存在着运算量过大的问题。因此,为了节省空间,作者提出了一种分别学习空间注意权重 α \alpha α和通道注意权重 β \beta β的方法:

在这里插入图片描述

Φ \Phi Φc, Φ \Phi Φs分别表示信道和空间注意模型.

3.2、空间注意力

我们通过展平原始V的宽度和高度来重塑V=[v1,v2,…,Vm],其中vi ∈ \in Rc和m=W*H。我们可以认为通孔是第i个位置的视觉特征。在给定先前时间步长LSTM隐藏状态ht−1的情况下,我们使用单层神经网络,然后使用Softmax函数来生成图像区域上的注意力分布 α \alpha α

以下是空间注意力模型 Φ \Phi Φ的定义:

在这里插入图片描述

Ws ∈ \in Rk*c,Whs ∈ \in Rk*d,Wi ∈ \in Rk是变换矩阵,将图像视觉特征和隐藏状态映射到相同维度; ⨁ \bigoplus 为矩阵和向量之间的加法,矩阵和向量之间的加法是通过将矩阵的每一列与向量相加来实现的;bs ∈ \in Rk,bi ∈ \in R1是偏置。

3.3、通道注意力

首先将V重塑为U,并且U=[u1,u2,…,uC],其中Ui ∈ \in RW×H表示特征图V的第i个通道,而C是通道的总数。然后,我们对每个通道进行平均池化以获得通道特征V:

在这里插入图片描述

其中标量vi是表示第i个通道特征的矢量ui的平均值。在空间注意模型的定义之后,基于通道的注意模型 Φ \Phi Φ可以定义如下:

在这里插入图片描述

Wc ∈ \in Rk,Whs ∈ \in Rk*d,Wi ∈ \in Rk是变换矩阵; ⨂ \bigotimes 表示向量的外积;bc ∈ \in Rk,bi ∈ \in R1是偏置。

3.4、混合使用

根据通道注意和空间注意的不同实施顺序,存在两种同时包含两种注意机制的模型。我们将这两种类型区分如下:

通道-空间注意力(C-S):

首先,在给定初始特征图V的情况下,我们采用基于通道的注意权重 Φ \Phi Φc来获得通道通道的注意权重 β \beta β。通过 β \beta β和V的线性组合,我们得到了按通道加权的特征映射。然后将通道加权特征图反馈给空间注意力模型 Φ \Phi Φs,得到空间注意力权重 α \alpha α。在获得两个注意力权重 α \alpha α β \beta β后,我们可以将V、 β \beta β α \alpha α馈送到调制函数f(.)以计算调制特征图X。

在这里插入图片描述

fc是特征映射通道和相应通道权重的通道乘法.

空间-通道注意力(S-C):

在给定初始特征图V的情况下,我们首先利用空间注意力 Φ \Phi Φs来获得空间注意力权重 α \alpha α。基于 α \alpha α、线性函数fs(·)和通道方向注意模型 Φ \Phi Φc,我们可以按照C-S类型的方法来计算调制特征X。

在这里插入图片描述

fs是每个特征图通道的区域及其相应的区域权重的元素级乘法.

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值