AGFlow

引入高级语义信息指导光流,使用图卷积网络挖掘场景信息辅助光流估计

AAAI2022

Non-Lambertian object非朗伯效应:表面反射不是均匀的。这些物体的表面反射可能会因为物体表面纹理、光线入射角度等因素而变化

One-shot:few-shot的一种

Few-shot:小样本学习(mode based,metric based,optimization based)

Zero-shot:在训练集中没有某个类别的样本,但是在测试集中出现了这个类别

Background

人工设计方法不能覆盖所有场景。深度学习的方法:数据驱动,端到端的范式,多阶段的细化过程,利用任务的辅助信息,建模像素级的匹配关系。目前的方法关注于解决匹配的相似度,缺乏对场景整体运动的理解

目前的方法都是依靠4D correlation,但是对于复杂场景容易受到影响。现有的方法加入了图像特征,使用人外的卷积操作提取场景信息。

Motivation

目前的方法利用的场景信息简单,没有去显示的建模这个过程

其运算局限在原始的坐标空间,计算负担重,缺乏场景的全局理解

忽略了domain gap(场景内容和运动特征)

Idea

加入整体运动的理解能力

光流应该超越网格,对整体运动有理解

自适应图推理,将上下文的理解从匹配过程中解耦。利用场景信息去帮助运动估计

基于图的方法

method

首先使用Motion encoder and context encoder提取特征,计算出4D correlation后将外观特征和上下文信息建模为图,经过t次的推理后还原回坐标空间预测光流

Adaptive Graph Reasoning for Optical Flow

计算correlation是在4个尺度上,循环细化时,使用9×9的区域

Node embedding:将特征投影到图空间,将位置信息从原始的网格特征中解耦,产生低维的节点表示

投影表示为

将相似的特征分配到同一节点,K表示节点数量

为了建立应该全局图,在网格空间将P线性组合,N为L2正则化,F是将特征图投影到图节点的权重。K是超参数

Adaptive Graph Reasoning.

邻接矩阵用于图推理

图卷积网络用于图推理的定义为

其中σ是非线性的激活函数,ˆ v是图推理后新节点的表示,推理过程迭代进行

运动节点编码的是两图之间的匹配对,而忽略了区域内像素之间的内部关机

上下文节点编码了区域的外观形状信息。

两个节点的表示存在gap,可能会影响信息的传播;运动节点缺少形状的约束,因此不能产生足够的上下文信息用于推理,为了解决这个问题,使用自适应图推理(AGR)从图像匹配中解耦上下文推理,传递区域和形状的场景信息给运动节点。用全局上下文去引导运动邻接矩阵学习自适应的参数

Θ是一个参数学习,A是上下文到运动图自适应器,其动态的权重来自于Θ,是一个两层的MLP

增强的上下文节点是

运动节点:

Attentive Readout.

在t次的迭代更新后,使用Attentive Readout模块去增强节点从图空间到网格特征空间。更新后的特征图包含了全局上下问信息和局部的像素级匹配代价,能更好的预测光流,其反投影为P

α是可学习的参数,是一个加权和。其中上下文信息缺少匹配的关系,可能会导致全局位移的偏移,因此使用了一个attentive fuse 函数,从运动特征处学习一个尺度权重,用于实现全局调整。F是一个注意力函数,用两个卷积和relu和sigmoid函数实现

EXPERIMENT

光流训练的流程

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值