引入高级语义信息指导光流,使用图卷积网络挖掘场景信息辅助光流估计
AAAI2022
Non-Lambertian object非朗伯效应:表面反射不是均匀的。这些物体的表面反射可能会因为物体表面纹理、光线入射角度等因素而变化
One-shot:few-shot的一种
Few-shot:小样本学习(mode based,metric based,optimization based)
Zero-shot:在训练集中没有某个类别的样本,但是在测试集中出现了这个类别
Background
人工设计方法不能覆盖所有场景。深度学习的方法:数据驱动,端到端的范式,多阶段的细化过程,利用任务的辅助信息,建模像素级的匹配关系。目前的方法关注于解决匹配的相似度,缺乏对场景整体运动的理解
目前的方法都是依靠4D correlation,但是对于复杂场景容易受到影响。现有的方法加入了图像特征,使用人外的卷积操作提取场景信息。
Motivation
目前的方法利用的场景信息简单,没有去显示的建模这个过程
其运算局限在原始的坐标空间,计算负担重,缺乏场景的全局理解
忽略了domain gap(场景内容和运动特征)
Idea
加入整体运动的理解能力
光流应该超越网格,对整体运动有理解
自适应图推理,将上下文的理解从匹配过程中解耦。利用场景信息去帮助运动估计
基于图的方法
method
首先使用Motion encoder and context encoder提取特征,计算出4D correlation后将外观特征和上下文信息建模为图,经过t次的推理后还原回坐标空间预测光流
Adaptive Graph Reasoning for Optical Flow
计算correlation是在4个尺度上,循环细化时,使用9×9的区域
Node embedding:将特征投影到图空间,将位置信息从原始的网格特征中解耦,产生低维的节点表示
投影表示为
将相似的特征分配到同一节点,K表示节点数量
为了建立应该全局图,在网格空间将P线性组合,N为L2正则化,F是将特征图投影到图节点的权重。K是超参数
Adaptive Graph Reasoning.
邻接矩阵用于图推理
图卷积网络用于图推理的定义为
其中σ是非线性的激活函数,ˆ v是图推理后新节点的表示,推理过程迭代进行
运动节点编码的是两图之间的匹配对,而忽略了区域内像素之间的内部关机
上下文节点编码了区域的外观形状信息。
两个节点的表示存在gap,可能会影响信息的传播;运动节点缺少形状的约束,因此不能产生足够的上下文信息用于推理,为了解决这个问题,使用自适应图推理(AGR)从图像匹配中解耦上下文推理,传递区域和形状的场景信息给运动节点。用全局上下文去引导运动邻接矩阵学习自适应的参数
Θ是一个参数学习,A是上下文到运动图自适应器,其动态的权重来自于Θ,是一个两层的MLP
增强的上下文节点是
运动节点:
Attentive Readout.
在t次的迭代更新后,使用Attentive Readout模块去增强节点从图空间到网格特征空间。更新后的特征图包含了全局上下问信息和局部的像素级匹配代价,能更好的预测光流,其反投影为P
α是可学习的参数,是一个加权和。其中上下文信息缺少匹配的关系,可能会导致全局位移的偏移,因此使用了一个attentive fuse 函数,从运动特征处学习一个尺度权重,用于实现全局调整。F是一个注意力函数,用两个卷积和relu和sigmoid函数实现
EXPERIMENT
光流训练的流程