北航提出基于语言桥接的时空交互来进行准确指向性视频对象分割-CSDN博客

本文链接：https://blog.csdn.net/Jason_android98/article/details/125828294

本篇分享 CVPR 2022 论文『Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation』，北航（刘偲团队）&信工所&美团提出LBDT，基于语言桥接的时空交互来进行准确指向性视频对象分割，性能SOTA！代码已开源！

详细信息如下：

论文地址：https://arxiv.org/abs/2206.03789
代码地址：https://github.com/dzh19990407/LBDT

      01      

摘要

指向性视频对象分割（Referring video object segmentation）旨在预测视频中自然语言表达式引用的对象的前景标签。以前的方法要么依赖于3D卷积网络，要么将额外的2D卷积网络作为编码器，以提取混合的时空特征。然而，由于解码阶段发生的延迟和隐式时空交互，这些方法存在空间错位或虚假干扰。

为了解决这些限制，作者提出了一种语言桥接双工传输（Language-Bridged Duplex Transfer，LBDT）模块，该模块利用语言作为中间桥梁，在编码阶段的早期完成显式和自适应的时空交互。具体而言，跨模态注意力是在时间编码器、参照词和空间编码器之间进行的，以聚合和传递与语言相关的运动和外观信息。此外，作者还提出了解码阶段的双边通道激活（Bilateral Channel Activation，BCA）模块，用于通过通道激活进一步去噪和突出时空一致性特征。

大量实验表明，本文的方法在四个流行的基准测试上取得了最新的性能，在A2D Sentences和J-HMDB Sentences上的绝对AP增益分别为6.8%和6.9%，同时消耗的计算开销减少了约7倍。

      02      

Motivation

指向性视频对象分割（RVOS）是计算机视觉与自然语言处理交叉领域的一项新兴任务，旨在对视频帧中自然语言表达式所引用的目标对象进行分割。不同于对象由手工标注mask指示的半自动视频对象分割（SVOS），RVOS由于自由形式表达式的差异，在识别目标方面更具挑战性。RVOS为人机交互提供了一种更自然的方式，开辟了广泛的应用领域，包括基于语言的视频编辑、语言引导的视频摘要和视频问答等。

解决RVOS的关键是时空交互和跨模态对齐。现有的方法主要关注后者，并设计了几种机制（例如，跨模态注意、胶囊路由和动态卷积）来挖掘视觉和语言模态之间的语义对应关系。然而，由于依赖于3D卷积网络（例如，I3D），所有这些方法都对时空交互有限制。具体而言，由于相邻帧中移动对象的姿势和位置不同，因此通过3D操作符（例如3D卷积和3D池化）聚合空间错位的多帧特征可能会混淆目标帧中的原始外观信息，导致不准确的分割结果。

为了缓解这一现象，CSTM引入了额外的2D空间编码器（例如，ResNet），以提取目标帧的未受干扰外观信息，该信息在后期解码阶段与时间编码器的特征融合。然而，CSTM的空间编码器缺乏运动信息，因为它没有与时间编码器显式交互，使得在执行不同动作时很难区分具有相似外观的对象。因此，它往往会对虚假对象产生高响应，并不可避免地引入噪声。

在本文中，作者认为应该在编码阶段更早地建立空间和时间特征之间的显式交互，从而在编码器之间形成更充分和有效的信息交换过程。此外，由于与语言无关的干扰因素中包含的冗余信息，简单的时空交互仍然倾向于引入噪声。因此，作者认为语言表达可以作为沟通时空交互的媒介，只有语言相关信息才能在编码器之间传输，以实现有效的上下文聚合。

为此，作者提出了一种新的语言桥接双工传输（LBDT）模块，用于在编码阶段进行有效的时空交互。如上图所示，来自时间编码器的运动信息首先通过跨模态注意力聚合到参考词（referring words）。然后，空间编码器可以通过反向跨模态注意从参考词中获得与语言相关的运动线索，这有助于通过识别正确的动作来识别参考对象（上图顶部）。

类似地，来自空间编码器的外观信息也通过语言桥传输到时间编码器，这有助于时间编码器区分与语言相关的前景对象和复杂背景（上图底部）。此外，作者还消除了对三维ConvNet的依赖，以及由二维ConvNet处理的帧差近似运动信息。通过这种方式，模型复杂性显著降低，因为与3D ConvNet相比，2D ConvNet占用的计算开销减少了近30倍（例如，3.6 GFLOPs vs.107.9 GFLOPs）。

为了利用层次视觉特征丰富的多尺度上下文进行更精细的mask预测，作者还提出了一种双边通道激活（BCA）模块，用于在解码阶段调整不同的特征通道。具体地说，首先在时间和空间解码器中分别对样本进行上采样并添加多个层次的特征，以获得解码后的特征，在此基础上，利用语言特征通过通道激活过滤出与语言无关的运动和外观信息。同时，进一步提取解码特征的全局上下文，以激活时空一致通道，突出显示参考对象的特征。

简言之，本文的贡献有三个方面：

提出了一个语言桥接双工传输（LBDT）模块，在RVOS的编码阶段，在两个独立的2D convnet之间显式地进行时空交互，其中使用引用词作为传输语言相关运动和外观信息的媒介。
在解码阶段，作者提出了一个双边通道激活（BCA）模块，以获得经过语言去噪的时空一致性特征，用于分割参考对象。
大量实验表明，提出的方法在四种流行的RVOS基准上都优于以前的方法，在A2D Sentences和 J-HMDB Sentences上的AP增益分别为6.8%和6.9%，同时消耗的计算开销约为7倍。

      03      

方法

本文模型的总体架构如上图所示。对于输入视频片段，作者将其目标帧（使用Ground Truth Mask进行标注）和计算的帧差分别馈送到两个独立的ResNet-50主干中，这两个主干分别表示为空间编码器和时间编码器。对于输入引用表达式，作者使用LSTM从预训练的GloVe嵌入中提取语言特征，这些特征表示为，其中N是引用表达式的长度。
为了在两个编码器之间显式传输与语言相关的运动和外观信息，本文提出了一个LBDT模块，并将其插入到不同的编码器阶段。在解码阶段，作者整合了多尺度上下文，提出了一个BCA模块来去除语言无关信息，并通过通道激活激活时空一致性特征。

3.1. Visual and Linguistic Feature Extraction

给定一个视频片段，将其输入目标帧，帧差分别到空间编码器和时间编码器，其中δ是用于计算帧差的目标帧和前一帧之间的间隔。
作者没有使用I3D作为时间编码器，而是在2D ResNet-50上构建空间和时间编码器。对于空间和时间编码器，将五个阶段的特征表示为和，其中，是第s阶段中特征的高度、宽度和通道数。
对于引用表达式，将每个单词作为300维向量嵌入，并使用LSTM作为文本编码器来提取单词特征，其中N是引用表达式的最大长度，是通道数。

3.2. Language-Bridged Duplex Transfer

本文的LBDT模块旨在以语言为桥梁，在时间和空间编码器之间显式传输与语言相关的运动和外观信息，其中作者堆叠了L层的LBDT模块，以执行这种双工传输方法，如上图。
为了清楚地阐述LBDT模块中的传输过程，以编码器的第s级为例，为了简单起见，省略了上标s。作者改变了两个空间特征和时间特征的通道数通过线性变换转换为：

其中和是第一层LBDT的视觉输入。对于语言输入，首先通过自注意力增强单词特征，并将增强的单词特征表示为，格式如下：

其中是正弦位置编码。
LBDT模块遵循Transformer的实现，并将其修改为跨模态版本。在每个LBDT层中，作者将增强的语言特征和前一层的输出作为输入：

由于双工传输过程以对称方式进行，因此以第l个LBDT层中的temporal→language→spatial 传输过程为例（即上图）。对于运动聚合，首先添加2D正弦位置编码转换为时间特征，然后将其reshape为。注意力图计算了每个单词和每个像素之间的相似度：

式中，，是第i个单词的注意力图。作者使用自适应地从reshape后的时间特征中聚合与语言相关的运动信息，然后将其添加到单词特征中，得到具有多模态表示的language medium：

对于 motion transfer，让空间特征自适应地从选择多模态动作信息。同样，首先将位置编码添加到空间特征中，然后将其reshape为。然后计算间特征的第i个像素和交叉注意力图，用于衡量这两个特征之间的语义相关性：

然后，基于交叉注意图，将与语言相关的运动信息转移到空间特征中：

其中，MLP表示多层感知机，表示第l个LBDT层的输出空间特征。
将最后一个LBDT层和的输出表示为LBDT模块的输出。最后，将和的通道数增加到C，并将它们分别添加到原始的空间和时间特征中，以形成残差连接，以便于优化。

3.3. Bilateral Channel Activation

为了获得强语义表示并同时保持帧的局部细节，将最后三个阶段和的低分辨率空间和时间特征上采样到与第二阶段特征和相同的大小。结果特征表示为和，其中是解码器中的通道数量。
然后，将它们与和相加，得到解码后的特征和分别用于空间和时间解码器。在给定和的情况下，作者还提出了一个双边通道激活（BCA）模块，以自适应地过滤出与语言无关的信息，同时突出一致的时空特征，如上图所示。
具体来说，由于和可能包含与语言无关的运动和外观信息，作者提出利用句子特征作为去噪器，滤除与语言无关的信息。首先对和进行平均池化，将它们压缩到和。然后，得到特定于语言的空间去噪器和时间去噪器如下：

其中是sigmoid函数和表示 concatenation。
同时，作者还将通道维上的s和t concat起来，并应用线性变换来获得时空一致的特征：

式中，是ReLU函数。然后将f转换为通道激活器和：

接下来，结合特定语言的去噪器（即和）和时空一致激活器（即和），以在融合之前处理解码的空间特征和时间特征：

是具有广播操作的元素级乘法。
最后，将细化后的空间特征和时间特征concat在一起，并使用3×3卷积得到融合后的特征。进一步在F上应用卷积和sigmoid函数来获得logit映射，并将其向上采样到与预测相同的空间大小。

      04      

实验

上表显示，在A2D Sentences测试集上，本文的方法大大优于以前的工作。与CSTM相比，本文的LBDT-1模型在AP、overall IoU和平均IoU上分别实现了5.7%、3.9%和3.9%的绝对提升，表明在编码阶段使用语言作为媒介进行显式时空交互优于在解码阶段使用3D convnet和隐式交互的现有方法。

作者在J-HMDB  Sentences数据集上进一步验证了本文的方法的泛化能力。作者使用在A2D Sentences上训练的最佳模型直接评估J-HMDB  Sentences中的所有样本，而无需微调。如上表所示，本文的方法与以前的最新技术相比取得了显著的性能提升，这表明本文的方法可以获得更健壮的多模态表示，并将所学知识推广到看不见的数据集。

作者还对新提出的Refer-YouTube-VOS基准进行了实验，该基准具有更丰富的对象类别和更密集的注释帧。如上表所示，本文的方法在J＆F指标上分别比URVOS和CMPC-V好2.15%和1.90%，这表明本文的方法即使在复杂场景中也能表现良好。

作者使用在Refer-YouTube VOS上训练的最佳模型，并在Refer-DAVIS17数据集上对其进行微调，结果如上表所示。

上表展示了本文提出模块的消融结果。

作者在上表中展示了区间值δ对计算帧差的影响。当时间间隔为6时，性能最佳，这实现了建模短动作和长动作的平衡。

作者评估了LBDT模块的不同插入位置，并将结果总结在上表中。将LBDT插入空间和时间编码器的第4和第5阶段可以带来显著的改进。

上表中，作者比较了本文的方法和以前的方法的计算开销。在不依赖3D ConvNet的情况下，本文的模型在消耗约7×更少GFLOP和更小输入量的同时，显著优于现有方法。

上图显示了本文的方法和CSTM在复杂场景中的预测。由于CSTM中的空间编码器缺乏运动信息，它倾向于在虚假对象（第二列）上生成mask。通过在编码阶段以语言为桥梁显式地进行时空交互，本文的方法可以获得引用对象（第三列）的精确mask。

在上图中，作者进一步可视化了LBDT模块中引用词的attend区域。以第一排为例，与动作相关的单词“跳跃”关注跳跃女孩的区域，而与外表相关的单词“白色”和“蓝色”在对应颜色的两个人身上的反应最高。

      05      

总结

在本文中，作者重新考虑了RVOS的时空交互方式，并提出了一种语言桥接双工传输（LBDT）模块，来以语言为媒介，在编码阶段明确进行时空交互，传递语言相关信息。解码阶段还引入了双边通道激活（BCA）模块，通过通道激活对时空一致性特征进行去噪和激活。
实验表明，本文的方法在四个流行的基准测试上都比以前的方法有很大的优势，并且计算开销小得多。本文的局限性在于，静态语言描述可能并不总是与连续帧中位置和姿态不同的动态对象相匹配。