RAFT: Recurrent All-Pairs Field Transforms for Optical Flow用于光流估计的循环全对场变换

背景:

1.光流估计是一个长期存在的计算机视觉问题,对于理解视频内容至关重要。

2.光流估计面临的挑战包括快速移动的物体、遮挡、运动模糊和无纹理表面。

3.传统方法通常将光流估计视为一个手工优化问题,但这些方法在处理各种特殊情况时存在困难。

4.深度学习方法提供了一种替代方案,可以直接预测光流,避免了复杂的优化问题。

创新点:

高分辨率处理:

RAFT是第一个跳出coarse-to-fine(从粗糙到精细)框架的光流匹配算法,它在高分辨率下处理并保持单个固定的光流场,避免低分辨率下预测错误导致后续无法恢复的问题,并且不会损失小物体大位移的信息。

从粗糙到精细:

在光流估计时从低分辨率(粗糙)逐步到高分辨率(精细)进行匹配。

主要思想:先在图像的粗糙版本中获得一个大致的光流估计,然后逐层细化,逐步增加分辨率,使得最终的高分辨率估计能够保留更多的细节和精度。

循环更新算子:

RAFT的更新算子是循环的、轻量级的,并且共享权重。传统方法通常在迭代之间不共享权重,限制了迭代次数。RAFT的更新算子由一个卷积GRU组成,在4D多尺度相关体上进行查找,允许网络进行更多的迭代而不发散。

全对相关性体积:

RAFT引入了全对(all-pairs)相关性体积的概念,通过计算所有像素对之间的相似度来构建4D相关性体积,用迭代方式估计光流。

RAFT架构:

编码器:

特征编码器(Feature Encoder):

从两个输入图像(L1和L2)中为每一帧图像中的每个像素提取特征,特征被用来计算像素之间的相似性。

目的:

提取的特征用于构建4D相关性体积,比较L1和L2中所有像素对之间的视觉相似性,为光流估计提供基础。

构成:

6个残差块,2个\frac{1}{2}分辨率、2个\frac{1}{4}分辨率、2个\frac{1}{8}分辨率

归一化方法:

使用实例归一化,对每个样本独立进行,有助于在特征提取时保持样本间的独立性。

输出:

\frac{1}{8}分辨率,D=256

g\theta :\mathbb{R}^{H*W*3} \mapsto \mathbb{R}^{\frac{H}{8}*\frac{W}{8}*D}

上下文编码器(Context Encoder):

仅从第一输入图像(L1)中提取特征,提取整个图像的上下文特征。

目的:

提取的特征用于提供额外的上下文信息,帮助网络更好地理解场景内容,辅助光流的估计和细

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值