Computer Vision Lab, ETH Zurich, Switzerland 2021CVPR
光流+匹配 dense matching ,得到一张置信图表示其准确性和可靠性。除了流估计,还加入不确定性估计,将其不确定性分布参数化作为混合模型的约束,此外利用自监督的学习方法训练网络
Background
Dense flow: homogeneous, large displacement.对于下游任务而言,需要知道的是哪里的,何时的匹配是正确的,因此需要置信图
自监督的方法稠密图像匹配:GLU-Net,DGC-Net(预测了匹配得分)没有很好的建模物体的运动,外观变化和遮挡
光流不确定性:aleatoric uncertainty(随机不确定性) and epistemic uncertainty(认知不确定性),目前的方法ProbFlow,HD3F等限制于光流问题(位移和视角变换小)
Idea
Expand the domain of dense matching by learn to predict reliable confident values
同时学习流和概率不确定性(利用correlation volume),结合像素级的置信度图。在光流估计中通常预测方差作为不确定性
改进self-supervise数据的生成
迭代细化预测
Method
利用高斯或拉普拉斯分布建模预测的概率,空间中每个点的概率模型的参数平均值和方差由网络预测得到
受限混合模型预测
GLU-Net将误差分为内点和外点,使用拉普拉斯分布模型通过预测一个方差,易得到内点和外点,但是需要的不是确定该匹配是内点还是外点,并且单一变量的拉普拉斯仅预测一个方差,在复杂情况下不适用
混合模型:
为了适用于复杂场景,将分布由M个部分组成,其中a控制权重,每个分布的均值一样,即估计的光流,方差不同
混合约束:网络为空间中的每个位置预测平均光流,方差,权重,其中需要考虑转置不变性问题。改变单个模块的顺序,结果不变。
因此对上述模块中每个元素m取一个方差变化范围,方差对光流两个方向取同一值,每个元素都对应于absolute error图中的一部分,首先预测了一个无约束值hm。网络可以有效的将每个流预测分类到不同的不确定性区间
训练目标:
网络架构
自监督训练依赖了许多合成或变形的图像或标注的数据。训练合成图像时,有全局光滑的假设,在复杂场景表现不好
Correlation uncertain module:直接增加head可以预测分布参数,但是得到的参数主要依赖于局部领域,忽略了外观信息和特定位置的匹配。利用cost volume的2D切片,独立解码
不确定预测:加入了预测的光流信息拼接,见上图
自监督训练的数据不确定性
网络依靠一个全局的光滑性和插值完成,当使用合成的图片完成训练时,其训练的方法是的数据泛化性不好。
目标是生成比简单的单应变换更不可预测的合成运动,使得网络不太依靠插值完成。
给一对图像通过简单单应变换得到其流预测,通过对参考图像加入局部扰动可以知道流由简单的单应变换加扰动组成。而且引入扰动使得网络学会不确定区域的判别。扰动打破了合成流的全局光滑性,在这些像素上的误差更大,因此对这些区域需要估计更大的不确定性
Geometric Matching Inference
置信度:通过对平均流周围R半径的R的光流结果计算概率
multi-stage flow estimation:
将光流估计分为两个部分,其中一种估计简单的变换,作为推理最终光流的初始化。
将第一次得到的结果和第二次的输入图像对齐,直接将网络重复适用
Experiment
金子塔网络
基本框架:GLU-Net-GOCor
两阶段训练:首先单应变换,加扰动。再用于带有稀疏真值的真实图像(Megadeapth)