MIVOS：模块化交互式视频对象分割

最新推荐文章于 2024-07-12 23:11:20 发布

2301_78700076

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量1k

点赞数 16

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_78700076/article/details/135583700

版权

文章介绍了MiVOS，一种新型的交互式视频对象分割方法，通过解耦交互与掩码传播，使用时空记忆网络和差异感知融合模块，提高性能并适应多种用户交互。方法提出了一种轻量级top-k过滤策略和差异感知融合，以忠实捕捉用户意图并优化交互效果。

摘要由CSDN通过智能技术生成

一、论文地址：

[2103.07941] Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion (arxiv.org)二、导言

1.将交互到掩码和掩码传播解耦，允许更高的通用性和更好的性能。

2.传播模块采用一种新颖的top-k过滤策略读取时空存储器。

3.提出了一个新的差异感知模块，以学习如何正确地融合每次交互前后的掩码，并利用时空记忆与目标帧对齐。

4.本文提供了一个具有4.8M帧像素精确分割的大规模合成VOS数据集。

三、简介

现有的VOS方法可以按用户输入的类型进行分类:

1.半监督方法需要对第一帧进行像素级注释。

半监督视频对象分割。该任务旨在在视频中分割特定对象，仅在第一帧中提供一个完全注释的掩码。早期的方法通常在给定的框架上采用测试时的微调来提高模型的区分能力，但这种微调往往太慢。最近，人们探索了各种方法，包括逐像素嵌入，掩码传播和跟踪，建立目标模型，以及记忆特征匹配。特别是，STM 从过去的帧中构建记忆库，并使用query-key-value注意力机制预测掩码。该方法简单有效，可取得较好的效果。本文提出将半监督VOS方法的技术进展转移到交互领域。我们的时空记忆网络，受STM的启发，被用于我们的传播骨干。

2.交互式VOS方法将用户交互(例如涂鸦或点击)作为输入，用户可以迭代地细化结果，直到满意。

交互式VOS (interactive VOS, iVOS)在视频编辑中有着广泛的应用典型的用户交互，如涂鸦或点击(每帧几秒)比指定完整的注释(∼每个实例79秒)要容易得多，迭代或连续的细化方案允许用户更多地控制结果准确性与交互预算权衡。用户提供的提示在iVOS中提供。交互可以用于分割对象或正确的先前错误分类的区域。最近的大多数作品都集中在涂鸦互动上，这是戴维斯挑战所使用和提供的。最近的一种方法在交互式环境中扩展了他们的嵌入网络，将点击作为用户输入。由于模块化设计，所提出方法可以通过简单替换交互-掩码组件推广到广泛的用户交互。

主要贡献：

1.在解耦交互-传播框架上进行了创新，并表明该方法是简单、有效和可推广的。

2.针对传播过程中基于注意力机制的内存读操作，提出了一种轻量级top- k过滤方案。

3.本文提出一种新的差异感知融合模块，忠实地捕捉用户的意图，提高了iVOS的准确性，减少了用户交互的数量。

4.本文提供了一个480万帧的大规模合成VOS数据集。

四、相关工作

MiVOS与其他相关工作的区别如图

目前大多数基于深度学习的iVOS方法都是基于深度特征融合，将用户交互纳入分割任务中，其中设计了两个相互连接的编码器网络，或将潦写的特征存储为内存，在后面的分割过程中引用。这些方法不可避免地将特定形式的用户输入与掩码传播过程联系起来。这个特性使得训练变得困难，因为模型需要同时适应理解交互和准确传播掩码。另外，一些方法试图通过首先生成给定任何类型的交互的掩码，然后双向传播该掩码来解耦交互和传播网络。但这些方法无法达到最先进的性能。我们认为这是由于传播网络不再获得原始用户交互而忽略了用户意图。

为了克服上述问题，提出考虑交互轮前后掩码域的差异。

五、模型

最初，用户选择并交互式注释一帧(例如，使用涂鸦或单击)以生成掩码。该方法为视频序列中的每一帧生成分割。之后，用户检查输出质量，如果需要，通过进一步的交互纠正错误帧，开始新的一轮。我们将r表示为当前交互轮。使用上标，r -th轮的用户交互帧索引为t r , r -th轮的掩码结果为Mr ;使用下标，每个j -th帧的掩码记为Mr j 。

1.MiNet概述

由三个核心组件组成:交互到掩码、掩码传播和差异感知融合。交互模块在即时反馈回路中运行，允许用户在更耗时的传播过程之前获得实时反馈并在单帧上取得满意的结果。在传播模块中，校正后的掩码独立于Mr−1进行双向传播。最后，通过融合模块将传播的掩码与Mr−1融合，该模块旨在融合两个序列，同时避免可能的衰减或用户意图的丢失。用户意图是通过所选掩码在用户交互前后的差异来捕获的。这种差异被送入融合模块作为指导。

2.交互到掩码

这里可以使用各种交互式图像分割方法，只要它们能从用户交互中计算出对象掩模。用户可以自由使用他们最喜欢的分割工具，甚至为特定任务定制的管道(例如，电影编辑的人工分割)。使用来自现有掩码(Mr−1 t r )的信息的方法可能更省力，但这种属性是可选的。设计了一个潦草到掩码(S2M)网络，在DAVIS 基准上评估所提出方法。我们的管道具有高度的通用性，不受任何一种类型的交互网络的限制——我们还采用了基于点击的交互、徒手绘图和一个允许微调的本地控制模块。

S2M：S2M网络的目标是在给定输入涂鸦的情况下实时产生单图像分割。我们的设计有意采用标准DeepLabV3+ 语义分割网络作为骨干。该网络接受六通道输入:RGB图像、现有掩码和正负涂鸦映射，并处理两种情况:初始交互(现有掩码为空)和纠正交互(现有掩码包含错误)。与之前的方法不同，我们在大量静态图像集合上用更简单的单轮方法进行训练。通过所提出的解耦范式，能够利用这些非视频大数据集。

对于每个输入图像，我们随机选择两种情况中的一种(根据经验设置的概率为0.5)，并合成相应的输入掩模，该掩模要么设置为零，要么用随机膨胀/腐蚀从基本事实中扰动。我们没有重用输出掩码来形成第二个训练阶段以减少训练成本和复杂性。然后在错误区域中使用细化或随机Bezier ´ 曲线等策略生成相应的输入涂鸦。

本地控制：虽然最先进的交互式分割方法，如f-BRS，通常使用较大的感受野，以实现在很少的点击下快速分割，但当在分割过程的最后只需要局部精细调整时，可能会损害全局结果。除了耳朵之外，全局形状是正确的。在我们的解耦方法中，通过将交互算法限制在用户指定的区域中，可以直接断言本地控制，如图所示。该区域的结果可以毫不费力地缝合回主分割。

3.时间传播

给定一个对象掩码，传播模块跟踪对象并在后续帧中产生相应的掩码。在STM 之后，我们将具有对象掩码的过去帧考虑为记忆帧，用于使用基于注意力的内存读取操作预测当前(查询)帧的对象掩码。本文提出了一种新的轻量级top- k操作，与STM集成，并表明它在没有复杂的训练技巧的情况下提高了性能和速度。

内存读取与Top- k过滤：我们构建了两个编码器网络，记忆编码器和查询编码器。它们的网络骨干从ResNet50 到阶段4 (res4)提取，步长为16。额外的输入通道附加到记忆编码器的第一个卷积中，该编码器接受对象掩码作为输入。在每个编码器的末尾，使用两个单独的卷积来产生两个特征映射:键k ∈ R C k×HW 和值v ∈ R C v×HW ，其中H和W是步幅后的图像尺寸，C k和C v分别设置为128和512。

说明了我们的时空记忆读取操作。对于每个T内存帧，我们计算键值特征并将输出连接为内存键kM ∈R C k×THW 和内存值vM ∈ R C v×THW 。从查询中计算出的键k Q通过点积与kM匹配:

其中F ∈ R THW×HW 中的每个条目表示查询位置和内存位置之间的相关性。之前的方法[7, 54]将沿着内存维度应用softmax，并将结果概率分布作为vM的加权和。对于这种softmax策略，我们有两个观察:1)对于每个查询位置，大多数权重将落入一个小的内存位置集合，其余的是噪声，2)这些噪声随着内存的大小而增长，当序列很长时，性能会下降。基于这些观察，我们建议过滤亲和性，这样只保留top- k条目。这有效地消除了噪声，而不管序列长度如何。由于softmax保留顺序，我们可以预先应用top-k过滤，以减少昂贵的exp呼叫的数量。在实践中，我们新的top- k策略不仅增加了健壮性，而且克服了top-k的开销。图报告了top- k过滤带来的性能提升和健壮性。请注意，KMN (STM的最近修改)使用记忆对查询施加高斯局部性先验，而我们的top- k操作使用查询过滤记忆。总之，内存位置i与查询位置j的亲和度可以通过以下方式计算:

否则为0。Topk j (F)表示在F的j -th列中位于top- k的索引集合。这些注意力权重用于计算vM的加权和。对于查询位置j，功能mj从内存中读取:

读取特征将与v Q连接并传递给解码器以生成对象掩码。从查询编码器到解码器的跳过连接(为清楚起见没有显示)有助于创建更准确的掩码。解码器的输出是一个stride 4掩码，它被双线性上采样到原始分辨率。当有多个对象时，我们逐个处理每个对象，并使用软聚合来组合掩码。传播策略说明了我们的双向传播策略。给定一个用户交互的参考帧Mr t r，我们通过两个(向前和向后)独立的传递将分割双向传播到其他帧。假设每个交互的帧都有足够好的注释(在我们的解耦框架下更容易满足)，一旦到达先前交互的帧或序列的末尾，传播就停止。在STM之后，每5帧将被包含并缓存在记忆库中。紧接在查询帧之前的帧也将作为临时内存包含。在交互设置中，所有用户交互的帧都是可信的，并被添加到记忆库中。

评价传播模块可以在半监督VOS环境中被隔离以进行评估(其中第一帧地面真实值分割被传播到整个视频)。们对top- k过滤有效性的验证(我们的新数据集BL30K将在4部分详细说明)。该算法对选择k不是特别敏感，因为k = 20到100的性能相近。k = 50在所有的实验中。原则上，k的值应该与图像分辨率成线性关系，这样滤波后的有效区域大致相同。使用top- k滤波，我们的多对象传播在2080Ti上以11.2 FPS的速度运行。

4差异感知融合

如果传播以命中先前交互的帧t c结束，则t c和t r内的帧可能存在冲突。因此，需要在当前传播的掩码Mr ′和之前的掩码结果Mr−1之间进行融合。以前的方法通常采用线性加权方案，该方案与所做的修正无关，因此无法捕捉用户的意图。通常情况下，用户的纠正会在t r和t c之间消失。如图8所示，我们提出了一种新的可学习的融合模块，可以在融合过程中记住用户的纠正。具体来说，用户校正被捕获为帧t r上用户交互前后掩码的差异:

其中(·)+是max(·, 0)操作符。我们将正变化和负变化分别计算为两个掩码D+和D−。要融合ti，这是t r和t c之间，这些掩码不能直接使用，因为它们没有与目标框架对齐ti。关键的见解是，我们可以利用由我们的时空记忆阅读器计算的Eq. (2)中的亲和力矩阵W进行对应匹配。将交互后的帧t r作为内存，目标帧ti作为查询。对齐的掩码由两个矩阵乘积计算:

其中D+和D−使用区域平均进行下采样以匹配W的图像步幅，并将结果进行双线性上采样以达到原始分辨率。此外，传统的线性系数也可以用来模拟传播过程中可能的衰减:

请注意nr + nc = 1。最后，将特征集(Iti , Mr ′ ti , Mr−1 ti , A+, A−, nr, nc)输入到一个简单的五层残差网络中，该网络被sigmoid终止，输出最终的融合掩码。我们的融合方法可以将用户的意图捕捉为对齐的注意力图，这允许我们的算法将纠正传播到中点以外。这种融合无法在以前的线性混合方法中实现。

六、结论

本文提出MiVOS，一种新的解耦方法，由三个模块组成:交互-掩码、传播和差异感知融合。通过将交互与传播解耦，MiVOS具有通用性，不受交互类型的限制。另一方面，所提出的融合模块通过忠实地捕捉用户的意图来协调交互和传播，并减轻了在解耦过程中丢失的信息，从而使MiVOS既准确又高效。

2301_78700076

关注

16
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
MIVOS：模块化交互式视频对象分割

假设每个交互的帧都有足够好的注释(在我们的解耦框架下更容易满足)，一旦到达先前交互的帧或序列的末尾，传播就停止。目前大多数基于深度学习的iVOS方法都是基于深度特征融合，将用户交互纳入分割任务中，其中设计了两个相互连接的编码器网络，或将潦写的特征存储为内存，在后面的分割过程中引用。将交互后的帧t r作为内存，目标帧ti作为查询。本地控制：虽然最先进的交互式分割方法，如f-BRS，通常使用较大的感受野，以实现在很少的点击下快速分割，但当在分割过程的最后只需要局部精细调整时，可能会损害全局结果。
复制链接

扫一扫