The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos
文章目录
前言
code地址:https://github.com/rt219/The-Emergence-of-Objectness?tab=readme-ov-file
文章地址 https://openreview.net/pdf?id=grfI7Rnv5P
摘要
人类可以在不知道运动物体是什么的情况下很容易地分割出运动物体。对象可以从连续的视觉观察中产生,这激励我们从未标记的视频中同时建模分组和运动。我们的前提是视频中存在由运动部件关联的同一场景的不同视图,正确的区域分割和区域流动允许相互的视图合成,可以从数据本身进行检查,不需要任何外部监督。我们的模型从两个独立的路径开始:一个是为单张图像输出基于特征的区域分割的外观路径,一个是为一对图像输出运动特征的运动路径。然后,它将它们绑定在一个称为段流的联合表示中,该段流汇集了每个区域上的流偏移量,并为整个场景提供了移动区域的大体特征。通过训练模型来最小化基于片段流的视图合成误差,我们的外观和运动路径自动学习区域分割和流估计,而无需分别从低层边缘或光流中构建它们。我们的模型展示了在外观路径中出现了令人惊讶的对象性,超越了从图像中分割零镜头对象、从视频中分割运动对象的无监督测试时间自适应和通过监督微调的语义图像分割的工作。我们的工作是第一个真正意义上的端到端零样本视频对象分割。它不仅为分割和跟踪开发了通用的对象性,而且在没有增强工程的情况下,也优于流行的基于图像的对比学习方法。
1 Introduction
近年来,对比学习[ 1-3 ]已成为在通用图像上获取高级表征的有力模型[ 4 ]。尽管对比模型的表现令人鼓舞,但它们有两个关键的局限性。首先,它们严重依赖于人工设计的图像增强[ 5 ]来诱导不变性,但不能解释复杂的变化,如物体变形和3D视点。其次,它们仍然需要额外的标记数据和下游应用的微调阶段,以防止以独立的方式使用。
在本文中,我们寻求一种零样本图像模型,通过从未标注的视频中学习,以最小的增强来检测和分割物体。相对于静态图像,动态的观测序列提供了关于场景中运动的信息以及它是如何运动的。这样的模式不仅揭示了对象的边界段,还表明了层次的部分组织甚至对象语义。因此,作为一种易于获取的无标签数据来源,视频为学习图像表示提供了丰富的自然监督。
从视频中进行自监督学习的一个流行目标是视图合成。具体来说,给定一个源帧,学习一个函数,使用光度一致性作为监督将源帧扭曲到目标帧。稠密光流[ 6 ]可以通过这种方式进行自监督。人们还可以从带有额外相机参数的视频中学习单目深度网络[ 7 ]。其核心思想是找到一个合适的表示,该表示不仅可以参数化翘曲函数,还可以迁移到目标任务中。例如,提出多平面图像表示[ 8 ],利用视图合成在立体像对之间进行外推。
具体分析1
视图合成(View Synthesis)
视图合成是计算机视觉中的一个任务,旨在根据一个或多个已知视角的图像来生成同一场景的新视角图像。在自监督学习的上下文中,视图合成成为了一个流行的目标,因为它允许模型从大量未标注的视频数据中学习有用的表示。
具体过程
给定一个源帧(即视频中的某一帧作为参考),自监督学习的目标是学习一个扭曲函数,该函数能够将源帧中的像素或特征映射到目标帧(视频中的另一帧)中的对应位置,同时保持光度一致性。光度一致性指的是,在源帧和目标帧中,对应像素或特征的亮度或颜色应该尽可能相似,除非由于物体运动、遮挡或光照变化等原因导致实际差异。
扭曲函数与光度一致性
扭曲函数通常是一个可学习的参数化模型,它能够预测源帧中每个像素在目标帧中的新位置。在训练过程中,光度一致性作为监督信号,通过比较扭曲后的源帧(即预测帧)与实际目标帧之间的差异来指导模型的学习。这种差异通常通过像素级的损失函数(如L1或L2损失)来衡量。
与先前的工作使用视图合成进行低级视觉任务不同,我们的目标是解决涉及中级和高级视觉识别的对象分割问题。为此,以局部方式表示低层对应关系的稠密光流场是不够的(见图1 )。因此,我们寻求一种新的表示方法,它可以捕获整个场景中运动区域的大致特征。为移动区域显式地推导一个表示将允许模型定位和分割对象。
图1:我们的零样本目标分割是通过将图像无监督分解为片段和它们的运动来学习的,而过去的工作是基于密集的像素级光流来分割目标,这些光流在噪声、关节运动和突变运动的存在下是脆弱的。
具体分析2
为什么稠密光流场不足?
1. 缺乏全局上下文:稠密光流主要关注局部像素或特征点的运动,而对象分割通常需要理解整个场景的全局上下文,包括对象之间的空间关系、遮挡情况以及场景布局等。
2. 对复杂运动的局限性:对于具有复杂运动模式的对象(如关节动物或可变形物体),稠密光流可能无法准确捕捉其整体运动趋势,因为光流主要基于局部像素变化。
3. 对分割任务的直接贡献有限:光流本身并不直接提供关于哪些像素属于同一对象的信息,而是描述了像素或特征点如何随时间移动。因此,它不能直接用于对象分割任务,除非与其他技术(如分割掩码)相结合。
新的表示方法:能够捕获整个场景中运动区域大致特征的新表示方法。这种表示方法应该能够:
1. 提供全局视角:通过整合场景中的全局信息,帮助模型理解对象之间的空间关系和相互作用。
2. 捕捉运动模式:不仅关注局部像素的运动,还能捕捉对象整体的运动趋势和模式。
3. 支持对象定位与分割:为移动区域显式地推导出一个表示,使得模型能够更准确地定位和分割对象。
我们的方法将视图合成分解为两个视觉通路:一个外观通路,通过将静态的RGB图像分割成不同的区域来建模"什么在运动";一个运动通路,通过提取一对图像上的运动特征来建模"它是如何运动的"。然后使用运动特征来预测单个区域的流偏移量,假设所有像素具有相同的命运[ 9 ]。段掩码和它们的流向量共同重建了一个新的表示- -段流,用于视图合成。通过这种方式,物体外观和运动被解耦,这样用于预测分割的外观模型将受益于丰富的RGB信号。通过对一个区域进行条件化,运动路径也被赋予了解决一个比稠密流简单得多的问题的任务。两条通路在重建损失的情况下进行联合训练。
具体分析3
外观通路
目的:外观通路的主要目的是通过静态的RGB图像来建模“什么在运动”,即识别和分割出图像中的不同区域,这些区域对应于不同的运动对象或场景部分。
方法:外观通路接收RGB图像作为输入,并应用图像分割技术来将图像划分为多个区域。这些区域可以基于颜色、纹理、形状等低级特征进行划分,也可以结合更高级的语义信息来进一步细化。通过外观通路,模型能够学习到不同区域的外观特征,为后续的运动建模提供基础。
运动通路
目的:运动通路则专注于提取图像对上的运动特征,以建模“它是如何运动的”,即描述每个区域(或像素)在连续帧之间的位移和变形。
方法:运动通路接收一对相邻的RGB图像作为输入,并应用光流估计或其他运动估计技术来提取运动特征。这些特征可以包括像素或特征点的位移向量、速度场等。与外观通路不同,运动通路更关注于像素或区域之间的时间依赖性,以及它们如何随时间变化。
段流重建
在得到外观通路的段掩码和运动通路的流向量后,模型将这两个信息结合起来,为每个区域预测一个流偏移量。这里假设了一个简化的模型,即同一区域内的所有像素具有相同的运动命运(即相同的流偏移量)。这种假设有助于减少模型的复杂性,并使得问题更易于解决。
通过结合段掩码和流向量,模型可以重建一个新的表示——段流(Segment Flow),它同时包含了物体的外观信息和运动信息。这种表示不仅有助于视图合成任务,还可以为其他视觉任务(如对象跟踪、行为识别等)提供有用的线索。
联合训练
最后,外观通路和运动通路在重建损失的情况下进行联合训练。重建损失通常包括光度一致性损失(确保扭曲后的图像与目标图像在亮度或颜色上保持一致)和其他可能的正则化项(如平滑性约束、分割一致性约束等)。通过联合训练,两个通路能够相互促进,共同提高模型的性能。
经过自监督预训练后,我们发现通用的对象检测和对象分割自动从模型中浮现出来。我们的模型对于多种应用具有通用性。首先,外观路径可以直接应用于新颖的图像,以零样本的方式进行主导对象分割。其次,也可以对其进行微调,以便在小的标注数据集上进行语义分割。最后,通过无监督的测试时间自适应,可以将整体模型迁移到新颖的视频中进行无标签的运动目标分割。实验上,我们在所有这些应用上都表现出强劲的性能,与基线相比表现出相当大的改善。
本文的贡献可以总结为以下几个方面:1 )首次从无标签视频中实现真正意义上的端到端零样本目标分割;2 )超越传统稠密光流的概念上新颖的片段流表示;3 )一个可应用于各种图像和视频分割任务的通用模型。
2 相关工作
视频对象分割。运动目标的分割需要在时间维度上寻找对应关系。一个主要的工作重点是学习时间传播分割掩码的表示。这种表示可以通过具有长期关系[ 10、11]的视频中的像素级别的对象掩码来学习,也可以通过颜色化[ 12 ]和循环一致性[ 13 ]等自我监督来学习。给定初始帧中目标掩模的标注,模型跟踪目标并通过剩余帧传播分割。
完全无监督的视频对象分割,没有初始帧标注,受到的关注相对较少。NLC [ 14 ]和ARP [ 15 ]采用时间聚类的方法来解决这个问题。虽然这些算法不需要分割标注,但是这些算法的元素依赖于边缘和显著性标签,因此并不是完全无监督的。FTS [ 16 ]通过从帧间光流图中获得运动边界来计算分割。SAGE [ 17 ]在视频对象分割中考虑了边缘、运动分割和图像显著性的多重线索。上下文信息分离[ 18 ]通过利用前景和背景之间的运动独立性来分割运动目标。基于运动分组的并行工作[ 19 ]对具有相似运动矢量的像素进行聚类。这两项工作都依赖于一种现成的光流表示,它可以在没有[ 6 ]监督的情况下使用[ 20、21]进行训练。
运动分割。经典的运动分割方法[ 22-24 ]基于两帧光流从背景中分割出不同的运动区域。监督学习ap - proaches[ 25、26]将光流场映射到分割掩模。当光流矢量随时间变化不平滑且易受具有不均匀运动的铰接物体影响时,对稠密且准确的光流的需求可能会出现问题[ 27 ]。我们将注意力转向RGB表示上的建模外观,为感知组织提供了丰富的线索(例如纹理、颜色和边缘等),缓解了对稠密像素对应的需求。
运动轨迹分割。当运动在一个大的时间间隔内被考虑时,运动目标分割已经被证明是有效的[ 27 ]。基于轨迹聚类的方法[ 28 ]通过在数百帧图像上建立点轨迹,提取点轨迹的描述符,并对点轨迹进行聚类,得到分割结果。虽然有希望,但这种全局方法在计算上是很困难的。
分层表示。一个简单的线性模型[ 29、30]可以将一个视频分解为前景目标和背景的层,假设目标和背景之间是相互独立的。这种分层表示被用来获得更好的光流估计[ 31、24、32],以及用于视图插值和时间重定向应用[ 33-36 ]。与之前的工作不同,我们的工作通过这样的分层表征展示了对象性的出现。
用于分割的无监督学习。像素级分割的人工标注不仅耗时,而且在物体边界处往往不准确。因此,在没有标签的情况下学习分割在实际中非常有意义。Segsort [ 37 ]通过学习从静态图像中分组具有相似外观和上下文的超像素来预测分割。后来的工作[ 38 ]对比了从传统的自底向上分组得到的整体掩码方案。
相关的工作主要集中在从相同对象类别的图像和视频中学习部分分割,例如人类和人脸。SCOPS [ 39 ]是一种具有代表性的自监督学习方法。一般思想遵循无监督的地标检测[ 40 ],其中考虑了几何不变性、表示等价性和感知重构。在视频中也探索了共有部分分割[ 41 ],其中运动为部分组织提供了强大的线索。运动监督方法[ 42 ]通过仿射参数对相邻帧之间的部分运动进行建模。另一项工作[ 43 ]在胶囊网络中实现了类似的想法。我们的工作在研究从通用视频中学习而不是从单一的视觉类别中学习方面有很大的不同。
利用运动进行图像表示学习。运动包含关于物体位置、形状和零件层次的丰富线索。运动分割已被用作学习图像级物体表示的自我监督信号[ 44 ]。运动传播[ 45 ]从稀疏的光流矢量预测稠密的光流场,条件是RGB图像。我们的工作还从未标注的视频中生成图像表示。与以前的工作不同,我们的图像表示是我们完整的视频理解框架的副产品。
3 通过外观-运动分解分割
本工作的目标是学习一个零样本模型,通过仅仅暴露于未标记的视频来检测和分割对象。在本文中,我们只对检测物体性感兴趣,而不是进一步将物体分类到具体类别。我们假设一个视频中只出现一个运动物体。当出现多个运动物体时,模型需要将这些物体归为一组。
图2:学习一个单帧图像分割网络和一个无监督图像重建损失的双帧运动网络。我们从一个视频中采样两个帧,i和j。帧i经过分割网络并输出一组掩码,而帧i和j经过运动网络并输出特征图。该特征被池化到每个掩码中并预测一个流。所有的片段及其流从框架i→j组合成一个片段流表示,用于将框架i映射到框架j,并与框架j进行比较来训练两个网络。
具体分析4
1. 数据采样
从视频中连续采样两个帧:帧i和帧j。这两帧通常包含相似的场景内容,但对象的位置和姿态可能有所不同,反映了时间上的运动。
2. 分割网络
输入:帧i被输入到单帧图像分割网络中。
输出:分割网络输出一组掩码(masks),每个掩码对应于帧i中的一个对象或场景部分。这些掩码用于标识图像中的不同区域,但不包含关于这些区域如何随时间变化的信息。
3. 运动网络
输入:帧i和帧j都被输入到双帧运动网络中。
输出:运动网络输出一个特征图(feature map),该特征图包含了关于帧i和帧j之间像素或特征点运动的信息。这个特征图不是直接的光流图,而是用于后续流预测的中间表示。
4. 流预测与池化
流预测:利用从运动网络得到的特征图,以及从分割网络得到的掩码,对每个掩码内的特征进行池化(pooling)操作。池化操作有助于减少特征的空间维度,并提取每个对象或场景部分的整体运动特征。
预测流:基于池化后的特征,为每个掩码预测一个流(flow)或位移向量场。这个流描述了从帧i到帧j过程中,对应掩码区域内像素或特征点的运动轨迹。
5. 片段流表示与重建
片段流表示:所有的掩码及其对应的流被组合成一个片段流(segment flow)表示。这个表示既包含了对象的外观信息(通过掩码),也包含了它们的运动信息(通过流)。
重建:使用片段流表示将帧i映射到帧j’,即重建一个与帧j相似的图像。这个重建过程是通过将帧i中的每个像素或特征点根据其对应的流进行位移来实现的。
6. 网络训练
损失函数:为了训练分割网络和运动网络,使用无监督的图像重建损失。这个损失函数计算重建图像帧j’与实际帧j之间的差异,并通过反向传播算法来更新两个网络的参数。
联合训练:分割网络和运动网络是联合训练的,这意味着它们的参数在训练过程中是同时更新的。这种联合训练方式有助于两个网络相互促进,共同提高分割和运动估计的准确性。
我们采取基于学习的方法来解决这个问题。在训练过程中,我们给出了一个用于自监督学习的未标记视频的集合。预训练的模型应该直接适用于在新的图像或视频上进行推理,以产生目标分割掩码。训练我们模型的整体流程如图2所示。我们的方法外观-运动分解( AMD )从视频中采样一对RGB帧Xi和Xj进行学习。该模型由一条外观通路f A ( Xi )和一条运动通路f M( Xi , Xj)组成。这两条路径共同构造了一个段流表示F,用于将Xi帧转换为Xj帧。整体模型通过框架Xj上的重建目标进行自监督。在下面,我们描述了模型中每个模块的细节。
3.1 分割的外观路径
外观通路是一个全卷积神经网络,用于将静态RGB图像分割成独立的区域。形式上,给定图像Xi∈R3 × h × w,将其分割为c个区域。
在实际中,掩码S是一个跨c个通道归一化的软概率分布。c是我们方法的一个重要的超参数。较大的c可能导致过分割,而较小的c可能无法定位目标。经验上,我们使用默认值c = 5,这将在后面的消融研究中进行检验。
我们注意到,我们的分割网络被设计用于对静态图像进行操作,因此该网络可以迁移到下游基于图像的视觉任务中。在4.2节中,我们证明了预训练的分割网络可以以零样本的方式检测显著目标。在有标签数据集上微调外观路径在4.4节中进行了检验。
具体分析5
掩码S的解释
掩码S:这是一个跨c个通道的软概率分布,每个通道对应一个可能的区域类别。每个像素点的值表示该像素属于对应区域类别的概率。这种软概率分布使得网络能够处理像素级别的分类不确定性,提高分割的鲁棒性。
超参数c的选择
c的选择:c是一个重要的超参数,它决定了网络能够识别的不同区域的数量。选择一个合适的c值对于获得高质量的分割结果至关重要。较大的c值可能导致图像被过分割成过多的细小区域,而较小的c值则可能无法充分捕捉图像中的复杂结构。通过消融研究(Ablation Study),可以系统地评估不同c值对分割性能的影响,从而找到最优或接近最优的c值。
3 . 2 对应运动路径
运动路径的目的是提取一对图像之间的像素级运动特征,以便预测下一小节详述的区域流矢量。我们遵循PWC - Net [ 20 ]的网络体系结构来预测密集光流,其中每个像素的特征描述了其与另一帧中的空间邻居的感知相似性。形式上,给定输入帧Xi和Xj,网络通过
提取特征V,其中dv是运动特征的维数。
3.3 分段流量表示
给定解耦的外观路径和运动路径,可以绑定片段及其运动进行视图合成。具体来说,我们将每个分割掩膜内的像素级运动特征进行池化,以获得作为单个向量的掩膜运动特征。
式中,对空间坐标取求和运算,m用于索引分割掩膜。从运动特征中读出每个分割掩模的光流矢量为
其中,头部网络g ( · )被选为两层多层感知器( MLP )。至此,我们将一对图像Xi→Xj分解为一组分割掩膜Sm及其相关的流矢量Fm。该分解基于掩模内的像素具有相同运动的假设,这一条件简化了光流估计。这种假设对于铰接物体和非匀速运动可能不成立。然而,当视频中的所有视图都被用于优化时,问题就会变得更小,因为外观路径可以将一个平滑移动的区域聚集成一个有意义的段。我们通过将片段的层与它们的运动向量进行组合,为整个图像重建了一个新的流表示。
其中
表示外层产品。由于流表示F是基于段的,我们称之为段流。这种解耦的表达方式使得各部件之间可以相互交叉监督。给定一个光流偏移量,可以监督分割网络找到共享该偏移量的像素。给定一个分割掩膜,可以监督对应网络找到该掩膜的流偏移量。这种利用运动信息监督目标分割的方法与运动分割方法有着本质的区别。我们的分割掩模是通过一个静态的外观模型来预测的,它不需要密集和精确的流动来进行监督。它利用了区域层面的流,可以从稀疏和噪声的像素级估计中近似得到。
3 .4 重建目标
利用段流偏移图,我们能够将帧Xi扭曲为Xj
式中:p为空间区位指数。地面真值框架Xj通过以下目标为重建框架( Xj )提供监督:
其中D是定义两幅图像之间距离的度量。在D的众多选择中,例如光度损失[ 46 ]、基于深度特征的损失[ 47 ] [ 48 ]和对比损失[ 49 ],为了简单起见,我们采用了SSIM [ 46 ]的像素级光度损失。
3.5对象段选取
由于我们的模型为每幅图像输出c个掩膜,因此需要确定与目标而不是背景相对应的掩膜。我们通过实验观察到,在整个训练视频中,主要的运动物体都出现在一个特定的掩码通道中。该通道可以启发式地识别为其分割掩码具有最大平均段运动的通道。来自该掩码层的对象段用于评估零样本下游任务。
4 实验
我们证明了AMD模型可以迁移到三个下游应用中。首先,将表观路径直接应用于静态图像,以零样本的方式进行显著性目标检测。其次,在人类标签为零的新奇视频中,外观和运动路径都被转移到视频对象分割中。第三,我们微调标注数据上的外观路径进行语义分割。
4.1 训练和实现细节
AMD是在以对象为中心的大型视频数据集Youtube - VOS上预训练的[ 50 ]。Youtube - VOS的训练分割包含约4 000个视频,涵盖94类对象。数据集的总时长为334分钟。我们在采样率为24帧/秒的数据上训练模型,不使用原始的分割标签。我们从头开始训练所有模型参数,无需外部预训练。对于分割网络,我们使用ResNet50网络[ 51 ]作为主干,后跟一个包含两个卷积块的全卷积头。对于运动网络,由于其在估计光流方面的有效性,我们采用PWC - Net [ 20 ]架构。将输入图像的短边缘调整为400像素,随机裁剪一幅大小为384 × 384的正方形图像,并进行随机水平翻转增强。没有其他的增强体被设计出来。我们采用将任一帧视为目标帧的对称损失,并将两个重建误差进行求和。对于整体模型的训练,我们使用学习率为1 × 10-4,权重衰减为1 × 10 - 6的Adam优化器。我们在8个V100 GPU上训练AMD,每个GPU处理两对采样的相邻帧。网络优化为400K。
4.2 零样本显著性检测
经过预训练后,AMD的外观路径可以直接迁移到新的静止图像中的目标分割,而不需要任何下游的微调。为了评估分割的质量,我们将结果在显著性目标检测基准上进行了基准测试。在DUTS [ 52 ]基准测试集上测试了显著性目标检测性能,该基准测试集包含5,019张带有像素级真值标注的测试图像。我们遵循在该领域广泛使用的两个指标:F β score和每像素均方误差( MAE )。F β定义为精确率( P )和召回率( R )分数的加权调和平均值:
,其中β 2 = 0.3。MAE简单地说就是软预测评分的每像素平均误差。
实验结果。我们将我们的显著性估计结果与几种基于低级线索的传统方法进行了比较。有用的低级线索和先验知识包括背景先验[53]、物体性[54,55]和颜色对比度[56]。如表1所示,我们的方法达到了Fβ得分为60.2,平均绝对误差(MAE)得分为0.13,显著优于所有传统方法。我们注意到,AMD既不是专门为此任务设计的,也不是专门为此特定数据集设计的,但其出色的表现证明了该模型的泛化能力。
表1:在DUTS数据集上的显著性目标检测性能。我们的模型明显优于传统的低层次方法。
表2:语义分割在VOC2012上的迁移性能。我们的方法优于TimeCycle,并与对比方法进行了很好的比较。
在显著性检测的无监督学习相关工作中[ 57-59 ],对传统低层次方法的先验进行集成。虽然他们不使用显著性标注,但是他们的模型都是在ImageNet分类甚至像素级标注的语义分割上进行预训练的。这些方法因此不是完全无监督的,因此在比较中省略了它们。
图3:定性显著性目标检测结果。我们直接将预训练好的分割网络迁移到DUTS数据集上的新图像上,不需要进行任何微调。令人惊讶的是,我们发现在视频上预训练的分割运动物体的模型可以泛化到静态图像中检测静止的不可移动物体,例如最后一列中的雕像、盘子、长凳和树。
在图3中,我们展示了一些关于显著性目标检测的定性结果。令人惊讶的是,我们在视频上预训练的分割运动物体的模型不仅检测到图像中的可移动物体,而且还泛化到检测静止的不可移动物体,如最后一列所示的雕像、长椅、树木和板块。这表明我们的模型从未标注的视频中学习到了一个通用的客观性先验。我们假设我们的模型也可以从相机运动中学习到对象性。即使物体是静止的,相机运动也会导致物体和背景在不同深度处产生不同的观测投影二维光流。
4 .3 零镜头视频对象分割
我们将预训练的AMD模型迁移到新视频的目标分割中。由于我们的模型的分割预测是基于静态图像的,因此对视频中的图像进行顺序推理本质上估计了客观性。为了利用运动信息,我们使用了一种测试时间自适应的方法。具体来说,给定一个新的视频,我们在从新的测试视频中采样的成对帧上优化了式( 7 )中的训练目标。每个视频的自适应过程需要100次迭代。
我们在3个测试数据集上对零样本视频对象分割进行了评估。DAVIS 2016 [ 63 ]包含20个验证视频,有1 376个标注帧。SegTrackv2 [ 64 ]包含14个视频,976个标注帧。根据之前的工作,我们将注释中的多个前景对象合并为单个对象进行评估。FBMS59 [ 27 ]包含59个视频,720个标注帧。该数据集相对具有挑战性,因为对象可能在一段时间内是静态的。我们根据之前的工作对真值标签进行预处理[ 18 ]。为了进行评估,我们报告了Jaccard score,它相当于预测与真值分割之间的交并比( IoU )。
图4:与基于运动分割的方法CIS [ 18 ]及其输入稠密流和我们的分割结果与段流表示的定性比较。在稠密流估计中,CIS容易产生噪声、关节运动和相机运动。通过从运动中分解外观,我们的模型AMD较少受到密集光流的这些弱点的影响。这导致结果比基于运动分割的方法更好和更鲁棒。
实验结果。我们考虑声称对整个管道是无监督的基线方法,包括传统的基于非学习的方法[ 65、14、16、28、15]和最近的自监督学习方法[ 18、19]。在表3中,我们总结了所有方法在3个数据集上的结果。在这些方法中,NLC [ 14 ]实际上依赖于一个由人工标注的边缘边界训练的边缘模型,ARP [ 15 ]依赖于一个由人工标注的显著性数据集训练的分割模型。因此我们将它们的条目在表中进行灰度化。对于所有的传统方法,由于其原始论文没有报告这些基准的大部分结果,我们只提供了CIS论文中报告的性能值[ 18 ]。
我们评估了有测试时间自适应和无测试时间自适应的AMD性能。没有适应归结为只使用外观路径的逐图像显著性估计。适应既转移了表象,也转移了运动路径。在DAVIS 2016上,我们的方法取得了57.8 %的雅卡尔分数,超过了所有传统的无监督模型。对于CIS [ 18 ],他们的最佳性能模型使用大量的后处理,包括模型嵌入、多作物、时间平滑和空间平滑。因此,我们参考了他们在没有后处理的情况下从单一模型中获得的性能。我们的模型在DAVIS上比CIS略差1.4 %。然而,在Seg Trackv2和FBMS59上,我们的方法比CIS分别高出11.4 %和10.7 %。运动分组[ 19 ]是与我们同时进行的一项工作。它本质上是一种运动分割方法,依赖于现成的预先计算的稠密光流模型。当使用低性能的无监督光流模型ARFlow时,运动分组在DAVIS2016和Seg Trackv2上的表现比我们的方法差[ 6 ]。采用基于真值流训练的有监督光流模型[ 21 ],其性能显著提高。在所有讨论的方法中,我们的方法是第一个不需要预训练光流模型的端到端自监督学习方法
表3:DAVIS 2016、SegTrackv2和FBMS59数据集上无监督视频对象分割的性能评估。以雅卡尔评分衡量。该表分为传统的基于非学习的和最近的自监督学习方法。对依赖其他类型人为监督的模型结果( Sup . )进行灰色化处理。对于每个模型,也列出了对预训练稠密流方法的依赖性。MG使用ARFlow在SegTrackv2和FMBS59上的结果由我们复现并标以*。我们评估了仅使用外观路径和同时使用两种路径的AMD,以适应测试时间。AMD在基准CISon DAVIS 2016上表现良好,而在其他两个基准上则表现出较大的收益。
在图4中,我们展示了与基线CIS的定性比较[ 18 ]。我们展示了来自预训练的PWC - Net的稠密流,CIS结果,我们的段流和我们的分割结果。对于这些例子中的大部分,我们的分段光流只粗略地反映了真实的像素级光流。然而,由于我们的模型对光流质量相对不敏感,所以我们的分割结果明显更好,噪声更少。在第一个和第三个例子中,我们的模型产生了高质量的对象分割,即使对象的运动线索是非常微妙的。
图5为不同分段数的消融研究。给出了两个带分割掩码和分割流的例子。当c变大时,目标区域被分割在多个掩模上。过分割降低了DAVIS2016上视频对象分割的性能。
4.4 语义分割
鉴于我们的预训练分割网络可以产生有意义的通用对象分割,我们进一步考察了其在语义分割上的语义建模能力。我们在Pascal VOC 2012 [ 70 ]数据集上进行了实验。该数据集包含20个目标类别,10582张训练图像和1449张验证图像。给定一个预训练的模型,我们在训练集上对模型进行微调,并在验证集上进行性能评估。微调需要40,000次迭代,批处理大小为16,初始学习率为0.01。学习率经历多项式衰减,幂参数为0.9。
实验结果。我们将预训练模型与基于图像的对比模型Mo Co-v2 [ 2 ]和自监督视频预训练模型Time Cycle [ 62 ]进行比较。Time Cycle [ 62 ]是在VLOG数据集上预训练的,该数据集大于我们的Youtube - VOS数据集。对于Mo Co - v2,我们还在Youtube - VOS数据集上预训练对比模型,以减弱预训练数据集的作用。由于我们的方法的基础版本没有像对比模型那样使用大量的增强,我们还研究了数据增强的效果。结果报告于表2。我们的方法显著优于视频预训练方法TimeCylce 9.2 %。与MoCo - v2相比,当使用光增强(调整尺寸,裁剪)时,我们的模型略优于MoCo - v2 0.5 %。然而,当使用大数据增强(颜色抖动、灰度化、模糊)时,我们的方法比Mo Co - v2低0.7 %。这可能是因为我们的模型本质上是非对比性的,因此在增强时无法有效地利用信息。当在ImageNet上预训练时,MoCo - v2表现得更强,这可能是由于ImageNet的语义分布与VOC2012很好地吻合。总体而言,我们的模型优于先验自我。
4.5 消融研究
变量c,分割通道数,是我们模型的一个重要超参数。我们通过改变c( 5、6、8)的值来预训练模型,并在DAVIS2016上测试其对视频对象分割的迁移性能。在图5中,我们可视化了不同分段数下的模型预测。我们观察到较大的c倾向于导致过分割,而较小的c倾向于导致较大的区域。即使分离区域的运动非常接近,汽车和天鹅也被分割成多个区域。用c = 5训练的模型分割出一个完整的物体,而用c = 8训练的模型将物体分割成部分。当对c < 4的模型进行预训练时,训练变得不稳定。从定量上看,DAVIS2016上的视频对象分割性能随着分割数量的增加而降低。
5 总结
在本文中,我们通过将一个计算模型暴露于未标记的视频中,证明了客观性可以从计算模型中显现出来。我们提出了一种新的模型,该模型将外观路径和运动路径解耦,然后将它们绑定到一个联合段流表示中。与以前的工作严重依赖精确的稠密光流来预测物体分割不同,我们的方法只从原始像素观测中学习。我们的模型中的运动表示要弱得多,但是物体分割更加鲁棒。提出的模型AMD是第一个不使用任何预训练模块的端到端学习方法,用于零样本目标分割。其性能在多个图像和视频对象分割基准上进行了验证。