[论文翻译]Learning to Estimate Hidden Motions with Global Motion Aggregation(ICCV 2021)

论文翻译:

Learning to Estimate Hidden Motions with Global Motion Aggregation

摘要:

遮挡对依赖局部信息的光流算法提出了重大挑战。我们认为一个被遮挡的点是在参考帧中成像但不是在下一个帧中成像的点,由于它也包括移动帧失步的点,所以标准定义的轻微过载。估计这些点的运动是非常困难的,特别是在两帧设置中。以前的工作依赖于卷积神经网络学习遮挡,没有太大的成功,或者需要多帧使用时间平滑来推理遮挡。在本文中,我们认为通过建模图像自相似性,可以在两帧情况下更好地解决遮挡问题。我们引入了全局运动聚合模块,一种基于Transformer的方法来寻找第一幅图像中像素之间的长程依赖关系,并对相应的运动特征进行全局聚合。我们证明了在不损害非遮挡区域性能的前提下,遮挡区域的光流估计可以得到显著的改善。该方法在具有挑战性的Sintel数据集上获得了新的最新结果,在Sintel Final上平均端点误差提高了13.6 %,在Sintel Clean上平均端点误差提高了13.7 %。在提交时,我们的方法在所有已发布和未发布的方法中排名第一。

图1。全局运动聚合有助于解决遮挡引起的模糊。遮挡项- -我们扩展为包含场景中在下一帧中消失的任何部分- -导致光流估计问题中存在局部方法无法解决的大模糊。基于物体上的点具有均匀运动的假设,这种假设通常近似成立,我们提出全局聚合可能属于同一物体的像素的运动特征。在这个例子中,叶片上的大部分像素从第2帧移动到第3帧。当仅提供这两帧图像时,全局聚合允许运动信息从非遮挡像素传递到遮挡像素,有助于解决由遮挡引起的模糊问题。

1、引言

我们怎样才能估计出我们只看到一次的一个点的二维运动?这是光流算法对于帧间成为遮挡的点所面临的问题。估计光流,即相机和场景移动时图像中像素的表观运动,是自Horn和Schunck开创性工作以来计算机视觉研究的经典问题[ 14 ]。有很多因素使得光流预测成为一个难题,包括大运动、运动和离焦模糊以及无特征区域。在这些挑战中,遮挡是最困难和最未被探索的挑战之一。在本文中,我们提出了一种在两帧光流预测的情况下专门针对遮挡问题的方法。

我们首先在光流估计的背景下定义了遮挡的含义。本文将遮挡点定义为在参考帧中成像但在匹配帧中不可见的三维点。该定义融合了几种不同的场景,例如查询点移动帧失步或者在另一个对象(或本身)后面,或者在主动的意义上,查询点前面移动的另一个对象。一种特殊的遮挡情况如图1所示,其中部分叶片在帧外运动。

通过研究光流算法的基本假设,可以理解遮挡所带来的挑战。传统的光流算法应用亮度恒常性约束[ 14 ],假设与流场相关的像素具有相同的强度。显然,遮挡是对这种约束的直接违反。在深度学习时代,相关(代价)体[ 15 ]被用来为一个像素的每个潜在位移给出一个匹配代价。然而,外观特征的相关性无法为学习遮挡区域的运动提供有意义的指导。现有的大多数方法使用MRF中的平滑项来插值遮挡运动[ 9 ]或使用CNN直接学习相邻关系,希望基于相邻像素[ 38、36]来学习估计遮挡运动。然而,当遮挡较为显著且局部证据不足以解决模糊时,现有方法仍然无法正确估计遮挡运动。

相比之下,人类能够从整个图像中合成信息,并应用合理的运动模型来准确地估计被遮挡的运动。这种能力是有价值的仿真,因为我们从根本上关心的是恢复场景中物体的真实三维运动,为此估计遮挡运动是必要的。下游应用,包括跟踪和活动检测[ 23 ],也可以受益于对遮挡点运动的短期预测,特别是当它们稍后再次出现或表现出某种感兴趣的特征(例如,高速帧失步运动)时。

让我们考虑如何估计两帧情形下的这些隐藏运动。当缺少直接(局部)匹配信息时,运动信息需要从其他像素点传播。使用卷积来传播这些信息具有范围有限的缺点,因为卷积是一种局部操作。我们提出使用非局部方法来聚合运动特征。我们的设计是基于单个物体(在前景或背景中)的运动往往是均匀的假设。现有工作忽略的一个信息来源是参考框架中的自相似性。对于每个像素来说,了解其他哪些像素与其相关,或者它属于哪个对象,是进行准确光流预测的重要线索。即非遮挡自相似点的运动信息可以传播到遮挡点。受Transformer [ 39 ]的启发,我们引入了一个全局运动聚合( Global Motion Aggregation,GMA )模块,首先基于参考帧的自相似性计算注意力矩阵,然后利用注意力矩阵聚合运动特征。我们使用这些全局聚合的运动特征来增强成功的RAFT [ 38 ]框架,并展示了光流估计中的最新结果,如图2中的例子。

本文的主要贡献如下。我们表明,利用Transformer网络的注意力机制实现的长距离连接对于光流估计非常有利,特别是对于解决局部信息不足的遮挡像素的运动。我们表明,参考框架中的自相似性为选择长程连接进行优先排序提供了重要线索。我们证明了我们的全局运动特征聚合策略在不损害非遮挡区域性能的情况下,显著提高了遮挡区域的光流精度,并对此进行了广泛的分析。相对于RAFT的强基线[ 38 ],我们在Sintel Final上将平均端点误差( EPE )提高了13.6 % ( 2.86→2.47),在Sintel Clean上提高了13.7 % ( 1.61→1.39)。我们的方法在提交时的两个数据集上都排名第一。

图2。恢复隐藏运动。在第1行中,地面的左下角移动了帧失步,但推理它属于背景允许运动从图像的其他部分恢复。在第2行中,女孩的职员在第二帧中大部分被遮挡,但是来自可见部分的强线索可以解析其运动。我们的方法可以估计许多隐藏的运动,尽管存在遮挡。流图和误差图已经从Sintel服务器获取[ 8 ]。最好在屏幕上以颜色观看。

2、相关工作

光流中的遮挡。遮挡由于违反了亮度恒常性约束,在光流估计中提出了一个关键的挑战[ 14 ]。大多数传统的光流算法将遮挡视为异常值,因此开发和优化鲁棒的目标函数。在光流的连续优化中,Brox等人[ 6 ]使用L1范数,因为它对遮挡或亮度变化引起的异常值具有鲁棒性。Zach等[ 46 ]加入了全变分正则化并提出了一种高效的数值格式来优化能量泛函。该函数后来由Wedel等[ 42 ]改进。后来的工作引入了额外的鲁棒优化项,包括沙博尼耶势[ 7 ]和洛伦兹势[ 4 ]。

最近,离散优化方法,特别是马尔科夫随机场( MRFs ) [ 5 ],被用来估计光流。这些算法[ 27、9、43]首先使用一个健壮的、截断的数据项分别估计前向流和后向流。然后他们进行向前向后的一致性检查来确定被遮挡的区域。最后,作为后处理步骤,他们使用插值方法[ 31 ]填充被遮挡区域的光流。

其他工作将遮挡估计作为联合目标与光流估计结合起来。Alvarez等[ 1 ]使用前后一致性作为优化目标,从而估计时间对称的光流。除了前向-后向一致性,MirrorFlow [ 18 ]在能量函数中融入了遮挡-去遮挡对称性,实现了性能提升。由于遮挡是由3D运动引起的,其他工作[ 35、33 ]显式地将局部深度关系建模为图层并对遮挡进行推理。

与上述方法相反,我们并没有通过显式遮挡推理使损失函数过载。相反,我们采用了一种学习方法,类似于其他有监督的深度光流学习方法[ 36、45、17、19、44、2、47、38、22]。我们的目标不是显式地估计遮挡图,而是提高遮挡区域的光流精度。我们对全局聚合的运动特征采取隐式方法,这提供了额外的信息来正确预测遮挡区域的流量。与局部插值方法[ 31 ]相比,我们的方法可以被认为是非局部插值方法[ 34 ]。在深度学习文献中,遮挡问题已经在无监督学习设置[ 41、21、25]中得到了解决,然而,现有的监督学习方法都依赖于卷积在遮挡区域进行插值,对于较为显著的遮挡容易失效。

Self-attention and transformers.我们的设计原理受到最近变压器文献[ 39 ]的成功启发。Transformer架构在自然语言处理( Natural Language Processing,NLP )领域首次取得成功,得益于其对长距离依赖关系的建模能力以及面向GPU并行处理的可扩展性。在变压器架构中的各个模块中,自注意力是使变压器工作的关键设计特征。最近,研究人员将Transformer和相关注意力思想引入视觉领域,大多在图像分类[ 30、10]和语义分割[ 12、40、16]等高层任务中。据我们所知,我们是第一个利用注意力的思想来解决光流问题的。与变压器文献中的许多现有工作不同,我们在工作中没有使用自注意力。自注意力是指来自相同特征的query、key和value向量。在我们的例子中,query向量和key向量来自于模拟图像外观的上下文特征,而value向量来自于运动特征,是对相关体的编码

图3。提出的架构。我们的网络基于成功的RAFT [ 38 ]架构。所提出的全局运动聚合( Global Motion Aggregation,GMA )模块包含在阴影框内,是一种自包含的RAFT,具有较低的计算开销,显著提高了性能。它将视觉上下文特征和运动特征作为输入,输出跨图像共享信息的聚合运动特征。然后将这些聚合的全局运动特征与GRU要解码的局部运动特征和视觉上下文特征串联成残差流。这使得网络可以根据具体像素位置的需要,在局部和全局运动特征之间进行选择或组合。例如,由于遮挡等原因导致的局部图像证据较差的位置可能会优先考虑全局运动特征。

3、方法

3.1 背景

我们的网络设计基于成功的RAFT架构[ 38 ]。我们的整体网络图如图3所示。为了完整起见,我们简要地描述了我们的模型受益于RAFT的主要贡献。第一个贡献是引入了一个所有点对相关体,它显式地对所有可能的位移进行匹配相关建模。使用所有点对关联式的好处在于其处理大运动的能力。第二个主要贡献是使用门控循环单元( GRU )解码器进行迭代残差细化[ 19 ]。将构造的4D相关体编码为2D运动特征,迭代解码预测残差流。最终的流量预测是剩余流量序列的总和。使用GRU进行迭代求精的好处在于减少了搜索空间。在RAFT中,在GRU解码器中使用卷积来学习建模空间平滑性。由于卷积的局部特性,它们可以学习处理较小的遮挡,但当这些遮挡变得更加显著且局部证据不足以解决运动时,它们往往会失败。

图4。GMA模块的详细介绍。为了建模第一帧的自相似性,我们将上下文特征图投影为查询特征图和关键特征图。然后取两个特征图的点积和一个softmax得到一个注意力矩阵,该矩阵在外观特征空间中编码自相似性。类似于Transformer网络[ 39 ],我们还利用查询特征图与一组位置嵌入向量之间的点积来增加具有位置信息的注意力矩阵。分别利用学习到的值投影仪对相关体积编码后的运动特征图进行投影。利用得到的注意力矩阵对其进行加权求和,得到聚合的全局运动特征。

3.2 概述

杰弗里·辛顿在其1976年的第一篇论文中写道:"局部歧义必须通过找到最好的全局解释来解决" [ 13 ]。这一思想在现代深度学习时代依然成立。为了解决遮挡导致的歧义,我们的核心思想是允许网络在更高的层次上进行推理,即全局聚合相似像素的运动特征,隐含地推理出哪些像素在外观特征空间中相似。我们假设网络将能够通过寻找参考帧中具有相似外观的点来找到具有相似运动的点。这是由于观察到单个物体上的点的运动往往是均匀的。例如,向右运行的人的运动矢量有向右的偏向,即使我们看不到很大一部分人由于遮挡而在匹配帧中结束。我们可以利用这种统计偏差将运动信息从置信度高(隐式)的非遮挡像素传播到置信度低的遮挡像素。在这里,置信度可以解释为是否存在明显的匹配,即在正确的位移处是否存在高相关值。

基于这些想法,我们从Transformer网络[ 39 ]中获得灵感,该网络以其能够建模远程依赖关系而闻名。与Transformer中的自注意力机制不同,其中query、key和value来自相同的特征向量,我们使用了注意力的广义变体。我们的query和key特征是上下文特征图的投影,用于建模框架1中的外观自相似性。value特征是运动特征的投影,其本身是4D相关体的编码。由query和key特征计算得到的注意力矩阵用于聚合隐藏运动表示的value特征。我们将其命名为全局运动聚合( Global Motion Aggregation,GMA )模块。聚合后的运动特征与局部运动特征以及上下文特征级联,由GRU进行解码。GMA的详细示意图如图4所示。

3.3 数学公式化

令x∈RN × Dc表示上下文(外观)特征,y∈RN × Dm表示运动特征,其中N = HW,H和W分别为特征图的高度和宽度,D为特征图的通道维度。第i个特征向量记为xi∈RDc。GMA模块将特征向量更新计算为投影运动特征的注意力加权和。聚合后的运动特征为

其中α是初始化为零的学习标量参数,θ、φ和σ是查询、键和值向量的投影函数,f是相似度注意力函数

query、key和value向量的投影函数为:

其中,Wqry,Wkey∈Rdin × Dc,Wval∈Rdm × Dm。GMA模块中的可学习参数包括Wqry、Wkey、Wval和α。

最终输出为[ y | ( y | x )],即三个特征图的级联。GRU对此进行解码,得到剩余流量。级联允许网络智能地选择或组合由全局上下文特征调制的运动向量,而不需要精确地规定如何做到这一点。似乎网络学会了编码一些不确定性的概念,并且只有当模型不能确定来自局部证据的流时才会解码聚合的运动向量。

我们还探索了使用2D相对位置嵌入[ 3 ],允许注意力图同时依赖于特征自相似性和来自查询点的相对位置。为此,我们计算聚合运动矢量为:

其中pj - i表示以像素偏移量j - i为索引的相对位置嵌入向量。对垂直偏移和水平偏移分别学习嵌入向量并求和得到pj - i。如果在聚合运动向量时抑制距离查询点非常近或非常远的像素是有用的,那么这种位置嵌入就有能力学习这种行为。

我们还研究了仅从查询向量和位置嵌入向量计算注意力图,而不考虑自相似性。即,

这可以看作是在不对图像内容进行推理的情况下学习长范围聚合。很可能数据集中的位置偏差可以通过这样的方案来利用。表2中,( 6 )和( 7 )的结果分别记为Ours ( + p )和Ours (仅p )。

图5。Sintel Albedo数据集和遮挡图的示例。Albedo数据集在没有光照影响的情况下进行渲染。本例中的遮挡图包含了大部分遮挡了背景场景的前景物体以及运动出视场的左侧背景。图5 ( c )为本例的遮挡图( Occ )。图5 ( d )和图5 ( e )分别为帧内( Occ-in )和帧失步( Occ-out )遮挡图。

4、实验

4.1 实验设置

我们遵循标准的光流训练流程[ 20、36、38],首先在FlyingChairs [ 11 ]上进行120k次迭代,批大小为8,然后在FlyingThings [ 26 ]上进行120k次迭代,批大小为6。然后,我们结合FlyingThings、Sintel [ 8 ]、KITTI 2015 [ 28 ]和HD1K [ 24 ]对Sintel评估进行120k次迭代,对KITTI评估进行50k次迭代。设置批次大小为6进行微调。我们在两个具有PyTorch库[ 29 ]的2080Ti GPU上使用混合精度策略训练模型。对于基网络,我们采用与RAFT [ 38 ]相同的超参数。我们采用单周期学习率策略[ 32 ],最高学习率设置为2.5 × 10-4 FlyingChairs,其余学习率设置为1.25 × 10 - 4。对于GMA,我们选择信道维度Din = Dc = Dm = 128。

我们使用的主要评价指标是平均端点误差( AEPE ),它指的是平均像素流量误差。KITTI还使用了Fl - All ( % )度量,即端点误差大于3个像素或超过真实值5 %的光流矢量所占百分比。

Sintel数据集是用不同的渲染通道创建的,具有不同的复杂度。对于在Sintel服务器上的训练和测试评估,我们使用了Clean和Final Pass。Clean pass采用光照渲染,包括平滑阴影和镜面反射。Final pass采用全渲染方式创建,包括运动模糊、相机景深模糊和大气影响。在Sintel训练集中,他们还提供了Albedo pass,它不受光照影响,并且具有大致分段恒定的颜色。实例如图5所示。我们不使用该集合进行训练,而是将其作为评估数据集进行保留。这样做的动机是Albedo集除了遮挡区域外,在任何地方都坚持亮度恒常性。通过分别对遮挡区域和非遮挡区域进行评估和分析,我们可以清楚地看到我们的方法在处理遮挡问题时的表现。

表1。将不同Sintel数据集的光流误差分为遮挡( ' Occ ')和非遮挡( ' noc ')区域。帧内遮挡和帧外遮挡进一步分离,分别记为' Occ-in '和' Occ-out '。每个数据集中最好的结果和最大的相对改进都用粗体表示。

4.2 遮挡分析

为了验证我们提出的GMA模块在估计遮挡点运动方面的有效性,我们利用Sintel训练集中提供的遮挡图,将像素分为非遮挡( Noc )和遮挡( Occ )像素。我们进一步将遮挡像素分为帧内( ' Occ-in ')和帧失步( ' Occ-out ')遮挡,这取决于真实流矢量是否位于图像帧内或图像帧外。实例如图5所示。

我们在Sintel的所有三个渲染通道上进行评估,其中Clean和Final的结果为训练集误差,Albedo的结果为测试集误差。我们评估了不同区域的AEPE,结果如表1所示。我们观察到,与RAFT相比,我们方法的相对改进主要归因于对遮挡点的更好的流量预测。这一点在Albedo数据集上的结果中得到了加强,该数据集的亮度恒常性假设对非遮挡点完全成立,消除了混杂因素。最后,对于两个模型,帧外遮挡比帧内遮挡更具挑战性,但我们仍然观察到这些像素的显著改善。我们假设非遮挡区域的改善是由于GMA能够解决由其他亮度变化引起的模糊,例如镜面反射、模糊和其他来源。这一结果有力地支持了我们的观点,即全局聚合可以帮助解决由遮挡引起的歧义。

表2 .在Sintel和KITTI 2015数据集上的定量结果。我们报告了未另说明的平均端点误差( AEPE ),以及KITTI数据集的Fl - all测度,即误差大于3个像素的光流异常值的百分比。C + T '是指在Chairs和Things数据集上预训练的结果。S / K ( + H ) '指的是在Sintel和KITTI数据集上微调的方法,也有一些在HD1K数据集上微调的方法。括号表示训练集结果,加粗字体表示最佳结果。我们的( p only ) '表示定义在( 7 ) '中的位置注意模型。我们的( + p ) '表示( 6 )中定义的联合位置和内容注意力模型。Ours '表示我们在( 1 )中定义的主要的基于内容的自相似注意力模型。⋆结果采用RAFT论文[ 38 ]中详述的"热启动"策略进行评估。

4.3 与前人工作的比较

在证明了我们的方法可以改善遮挡区域的光流估计之后,我们在整体性能上与之前的工作进行了比较。我们在Sintel数据集[ 8 ]和KITTI 2015光流数据集[ 28 ]上评估了我们的方法。在提交时,我们已经在所有已发布和未发布的提交结果中获得了Sintel Final和Clean基准上的最佳结果。与我们的基准方法RAFT [ 38 ]相比,我们在Sintel Final上将AEPE从2.86提高到2.47 (提高13.6 % ),在Sintel Clean上将AEPE从1.61提高到1.39 (提高13.7 % )。这种对RAFT的显著改进验证了我们的观点,即我们的方法可以在不损害非遮挡区域性能的情况下提高对遮挡区域的流量预测。Sintel服务器还报告了" EPE不匹配"指标,该指标衡量的是仅在一帧中可见的区域上的端点误差,主要是由遮挡引起的。我们的方法在Clean ( 2.2 w . r . t。RAFT)和Final ( 1.7 w . r . t。RAFT)上也在该指标下排名第一,在Clean ( 2.2 w . r . t。RAFT)上的裕度为0.9 EPE,在Final ( 1.7 w . r . t。RAFT)上的裕度为1.3 EPE。总的来说,我们的模型在光流估计方面取得了新的最先进的结果,这表明了解决光流中遮挡问题的有效性。

在KITTI 2015测试集上,我们的结果与RAFT相当。仅使用位置注意力的Ours ( p only ) '表现优于RAFT,而使用内容自相似性注意力的' Ours '表现略逊。该数据集上的不足很可能是由于没有足够的训练数据(只有200对图像)供网络学习高层外观特征相似性

图6。注意力地图可视化。对于每一行,我们展示了第一帧和三个查询点。然后展示了这些查询点(颜色越亮意味着更高的注意力权重)对应的三个注意力图。我们还给出了预测光流的可视化结果以进行比较。最好在屏幕上观看。

4.4 量化结果

针对Sintel Clean数据集中的两个实例,定性结果如图2所示。与RAFT相比,图像中移动帧失步或另一个物体后方区域的光流误差显著减小。这些场景具有很大的挑战性,存在大量的运动和遮挡。例如,RAFT无法跟踪在第二张图像中被部分遮挡的木质人员,这并不是不合理的,因为它在森林中伪装得很好,移动速度快,而且很薄。然而,我们的模型能够非常准确地预测员工的运动,尽管存在这些挑战。

我们还给出了图6中两个例子的学习注意力图的可视化。为了有效地训练,网络应该学习关注共享相似运动向量的像素。对于前景点,我们期望这最容易通过关注同一对象上的点来实现,而对于背景点,它可能足以关注任何其他背景点。这些例子证明了这一预期,并为外观(和高阶)自相似性正在被网络学习的论点提供了支持,这有助于估计被遮挡点的流量。

表3 .消融实验结果。在我们的最终模型中使用的设置被强调。

4.5 消融实验

为了验证我们的设计,我们进行了以下消融实验。我们首先比较模型的测试变体的性能,其中位置注意力替换(仅p )或增加( + p )自相似性注意力,如表2所示。我们发现自相似性足以实现性能的提升,位置编码只对KITTI数据集有帮助。这与我们的直觉不谋而合,长距离连接是有帮助的,基于距离的抑制是不必要的。此外,我们对三种设计选择进行了消融:( 1 )学习标量参数α vs将其固定为1,( 2 )串联局部运动特征vs替换局部运动特征,( 3 )使用残差连接(将聚合器的输出添加到局部运动特征中) vs不使用残差连接(直接将聚合器的输出与运动特征和上下文特征串联起来)。结果见表3。

这里的关键实验是表明级联是网络设计的重要部分。其假设是,网络应该学习如何基于某种隐含的不确定性度量来选择或组合局部和全局聚合的特征。也就是说,在大多数非遮挡区域中替换局部特征是没有帮助的,它们可能比聚合特征更加可靠和精确。虽然残差连接也可能能够处理这一点,但同时使用这两种机制会导致最好的性能。

表4 .时间、参数和内存。GMA模块具有适中的计算开销。

4.6 计时、参数量和内存

我们证明了GMA的计算开销相对于性能提升较低,如表4所示。我们的模型的参数计数为5.9 M,而RAFT为5.3 M。我们在单个RTX 3090 GPU上测试了推理时间,在Sintel数据集中,RAFT平均耗时60ms,单对图像平均耗时72ms。图像大小为436 × 1024。GRU迭代次数设置为12。我们还测试了用于训练的GPU内存消耗。在单张3090卡上训练FlyingChairs时,随机裁剪为368 × 496,批大小为8,RAFT占用16.0 GB内存,而我们的网络占用17.2 GB内存。我们可以看到,总体上计算开销是适中的,而结果的改进是显著的。

5、讨论

我们已经通过实验证明,通过图像自相似性加权的长距离连接在解决被遮挡三维点的光流方面非常有效。其直觉是,如果网络能够确定哪些非遮挡点以同样的方式运动,则可以将这些信息传递给"画中"遮挡点的运动。确定哪些点具有相似的运动特征是一项非平凡的任务,依赖于对统计偏差的利用。由于3D中的匀速运动,对于属于同一类的点,经常可以观察到类似的流矢量。这表明我们应该使网络能够聚合相同场景对象的运动,这促使我们选择将图像特征的自相似性显式地暴露给我们的GMA模块。然而,这种加性聚集只有在被关注位置的流场近似均匀时才有帮助。这并不完全适用于一般的物体和相机运动,其中流场可能远远不均匀,即使在同一个刚性物体上。一个例子是直接位于相机前方并绕光轴旋转的物体,其中流动矢量方向相反。为了应对这样的场景,未来可能的工作是首先基于相对位置变换运动特征,然后进行聚合。

6、结论

长期以来,遮挡被认为是光流估计的一个重大挑战和主要误差来源。受到Transformer最近成功的启发,我们引入了一个全局运动聚合模块,基于第一幅图像的外观自相似性对运动特征进行全局聚合。这已被实验证实,对遮挡区域的光流预测显著改善,特别是在Sintel Clean and Final上EPE的大幅减少。我们提出的利用自相似性聚合长距离连接信息的方法是一种简单有效的将高阶推理引入光流问题的方法,适用于任何有监督的流网络。我们预期聚合机制或替代方案的进一步发展将带来额外的性能提升。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值