Dual-Level Collaborative Transformer for Image Captioning
文章目录
背景
目标检测网络提取的描述区域特征在图像标注的发展中起着重要作用。区域特征可以提供对象级信息,因此图像中的大多数显著区域都可以以特征向量表示,使用区域特征大大降低了视觉语义匹配的难度。但是他的缺点是缺乏上下文信息和细粒度细节。这些缺点是网格特征的优点,相反,网格特征以更分散的形式覆盖了给定图像的所有内容。
因此可使用自注意力机制模块来模拟视觉特征的关系。
在这种设置下,直接使用两个特征源在注意过程中容易产生语义噪声。
这种情况不仅阻碍了两个特征的互补性,而且降低了总体性能。
因此本文提出了一种DLCT网络,以实现区域和网格特征在图像标注中的互补优势。
1)使用Comprehensive Relation Attention(CRA)融合输入特征的绝对和相对几何信息。
2)使用Locality-Constrained Cross Attention(LCCA)构造了一个几何对齐图,以指导两个特征源之间
的语义对齐。它可以通过Cross Attention(交叉注意)来增强每种类型的特征,将区域特征的目标信息
转移到网格特征,并从网格特征中补充细粒度细节到区域特征。
1.模型
1.Integrating Position Information:
1)Absolute Postional Encoding(APE):
告诉模型特征的位置
假设有两个具有相同外观特征对象:一个位于角落,另一个位于中心,在这种情况下,APE有助于模
型准确地区分它们。
网格:使用三角函数位置编码方式来获得网格位置编码(GPE):
区域:Bi = (xmin, ymin, xmax, ymax)
2.Integrating Position Information:
2)Relative Positional Encoding(RPE):
为了更好地整合视觉特征的相对位置信息,我们根据包围盒的几何结构添加相对位置信息。
网格&区域 :Box=(x, y, w, h)
因此,对于Boxi和Boxj,可以将它们的几何关系表示为4-d向量:Ω(i,j)反映了两个区域之间的几何关系:
3.Integrating Position Information:
3)Comprehensive Relation Attention(CRA):
获取了绝对信息和相对信息,就可以通过Comprehensive Relation Attention (CRA)对它们集成。
对于Absolute Postional Encoding(APE):修改注意层的Q和K:
Multi-Head CRA (MHCRA):
2.Dual-Level Collaborative Encoder:
首先提取图像网格和区域特征,分别表示为VG={vi}Ng和VR={vi}Nr。
编码器由两个子模块组成:Dual-Way Self Attention和 Locality-Constrained Cross Attention。
Dual-Way Self Attention:
Transformer-encoder:通过自关注来模拟输入之间的关系,以丰富视觉特征。
为了更好地模拟两种特征的层次内关系,设计了一个由两个独立的自注意模块组成的DWSA
区域特征Hr(l)&网格特征Hg(l)。
Ωrr和Ωgg分别是区域和网格的相对位置矩阵
Locality-Constrained Cross Attention:
增强每种类型的特征,构造了一个几何对齐图,以指导两个特征源之间的语义对齐,避免噪声的介入。
几何对齐图G=(V,E):
V:网格与区域特征。
E:当且仅当网格节点和区域结点的边界框交叉时,网格节点连接到区域节点。
区域可以与一个或多个网格对齐,而网格可以与零个或多个区域对齐,因此可能存在一个网格结点与
任何区域都没有连接的情况,所以为几何对齐图中的每个节点创建一个自环边。
Locality-Constrained Cross Attention:
基于几何对齐图,应用LCCA在两种不同类型的视觉特征进行对齐。
Q:特征1 ; K&V:特征2
在多层编码之后,连接网格特征和区域特征送到解码层中。
3.框架
4.实验
数据集:
coco:113287/5000/5000
grid:7*7