论文详情
论文标题:Adaptive Selection based Referring Image Segmentation
发表时间:2024
原文链接:Adaptive Selection based Referring Image Segmentation | OpenReview
摘要
指向性图像分割(RIS)旨在根据特定描述分割出特定区域。现有的一阶段方法探索了多种融合策略,但仍面临两个显著问题。首先,大多数方法依赖于手动选择来自视觉编码器层的视觉特征,缺乏灵活性,无法有选择性地关注与语言相关的视觉特征。其次,直接将词级特征融合到粗对齐特征中,破坏了已经建立的视觉-语言对齐关系,导致性能不佳。本文提出了一种创新的RIS框架,旨在通过视觉和语言特征的自适应对齐来克服这些挑战,称为自适应选择与双重对齐(ASDA)。ASDA在两个方面有所创新。首先,我们设计了自适应特征选择与融合(AFSF)模块,动态选择视觉特征,聚焦于与不同描述相关的区域。AFSF配备了尺度级特征聚合器,能够提供分层的粗特征,不仅保留了关键的低级细节,还为后续的双重对齐提供了强健的特征。其次,我们利用了词导双分支对齐(WGDA)模块,通过词导注意力将粗特征与语言线索整合,解决了视觉-语言错位的常见问题,确保语言描述能够直接与掩码预测交互。这引导模型聚焦于相关图像区域,进行准确的预测。大量实验结果表明,我们的ASDA框架在RefCOCO、RefCOCO+和G-Ref基准上超越了现有的最新方法。性能的提升不仅突显了ASDA在捕捉细粒度视觉细节方面的优势,也展现了其对多样化描述的强大适应性和鲁棒性。
前言
之前的大多数RIS任务的方法大多都是在视觉解码器的层之间人为的选出固定的几层提取视觉特征,但是这样的方法确实灵活性。而且,将词级特征直接融合为粗对齐特征会破坏已建立的视觉语义对齐,导致性能变差。在本文作者通过映入了一个Adaptive Selection with Dual Alignment(ASDA)结构来解决这个问题。ASDA包括两个部分,分别是Adaptive Feature Selection and Fusion(AFSF)和 Word Guided Dual-Branch Aligner(WGDA)。AFSF模块动态的选择聚焦于与各种描述相关的不同区域的视觉特征。WGDA利用单词引导注意将粗粒度特征与语言相结合。
动机
RIS任务最主要的挑战就是实现文本描述与相关视觉部分的像素级别对齐,现在已有的方法通常都需要使用外部知识促进学习,一般依赖分离的视觉和语言解码器,例如:Swin encoder与BERT encoder配对。但是这缺乏多模态的联系。同时也有一些研究建立了很好的对齐模型,例如CLIP,但是这些方法都需要使用人为选择的视觉特征。
所以作者发表了一个AFSF模型来动态选择某些层的特征。
The Adaptive Feature Selection and Fusion (AFSF)
AFSF由两个部分组成Adaptive Feature Selection(AFS)和Sale-Wise Feature Aggregator(SFA)。
首先模型给模型输入图像I和文本T,假设输入的图像的尺寸是××3,这张图片被分成多个patch小块,这样操作图片的尺寸是/P×/P×C,这里的P是每一个patch的尺寸。然后Ip被丢入ViT中的Transformer层中进行操作,输出层i的特征被定义为,而且有一个可学习的class token向量,这个向量有着全局的视觉特征定义为。
文本输入与上面类似,表示为,特别的是文本向量被[SOS]和[EOS]包围,[SOS]被标注为起始标志,[EOS]表示结束标志。[EOS]有着文本的全局信息。
Adaptive Feature Selection (AFS)
在AFS模块中,作者分别从Visual Encoder的456层,789和最后一层中挑选出低级特征和中间层特征还有高级特征。
方法如下,
⊗表示逐元素相乘,ΦT是一个线性层,目的是使得特征图跟fe是相同的维数。
Φas表示adaptive selection network它由线性层和softmax层组成,L是最相关的层数的索引。这样就选出了与文本信息最相关的特征图的层数。
下面的方法与之类似,选出了789层中最相关的特征图
最后对low-level和mid-level features做下采样,,这样的操作促进视觉信息更详细和分层表示。
Scale-Wise Feature Aggregator(SFA)
这里作者将文本的全局信息与最后一层的视觉特征相乘得到全局到局部融合特征
接着这些特征图通过上面的方式融合形成颗粒图特征图,
Φup表示 2x 上采样,之前得到的FL被转变为,通道数被减少到32
接着FM与FL做进一步的融合,Φlateral是一个Convolution-ReLU block,最后得到。
最后通过aggregation step得到颗粒度图像,这里主要的操作就是先经过3×3的卷积,然后再展平。
Word Guide Dual-Branch Aligner
一般的单分支方法,在得到文本和图像的信息之后往往是直接对它们进行处理,这样的操作会使得模型聚焦于那些与文本描述不相关的区域,所以这里作者设计了一种双分支的结构来缓解这种情况。
WGDA结构主要包含两部分,分别是Coarse-to-Fine Segmentation Decoder(CFS)、Word Guided Coefficient Generator(WCG)。
Coarse-to-Fine Segmentation Decoder(CFS)
CFS分支利用局部视觉注意和分割解码器来识别视觉标记之间的关系。
在这个分支里利用之前步骤得到的输出的是一个attention enhanced local visual features。
在这个分支中有一个Local Visual Attention module,在这个模型的n层中由下面这样的操作。
ΦMHSA是多头自注意力层
ΦLN是层归一化
表示逐渐优化的视觉特征
在经过n层这样的操作之后分割解码器利用Fa产生掩码M',计算方法如下。
在经过最后一次卷积之后产生M掩码
Word Guided Coefficient Generator(WCG)
这个分支合并了refined visual features 和 word level language features通过Visual and Language Local Attention module。
这里通过多头注意力层将细粒度语义信息传播到优化的视觉特征中。
ΦMHCA表示交叉注意力层
Fk是一个中间量特征
这里的Ffine捕获了视觉和语义上的特征关系
Φcoef表示两个3×3的convolution layer和一个1×1convolution layer,还有一个Tanh激活函数.
coef系数被用来控制分割的输出.
用之前得到的掩码M与这个系数做对应元素相乘的操作,然后reshape得到最终的掩码。
作者指出它们使用linear combination of focal loss和dice loss来监督掩码预测。
总结
这篇文章通过自适应选取视觉特征的机制和双分支的操作增加了模型的灵活性,使得模型可以通过文本去找到最适合的视觉特征,这样大大提高了模型的准确率。