背景:
1.光流估计是一个长期存在的计算机视觉问题,对于理解视频内容至关重要。
2.光流估计面临的挑战包括快速移动的物体、遮挡、运动模糊和无纹理表面。
3.传统方法通常将光流估计视为一个手工优化问题,但这些方法在处理各种特殊情况时存在困难。
4.深度学习方法提供了一种替代方案,可以直接预测光流,避免了复杂的优化问题。
创新点:
高分辨率处理:
RAFT是第一个跳出coarse-to-fine(从粗糙到精细)框架的光流匹配算法,它在高分辨率下处理并保持单个固定的光流场,避免低分辨率下预测错误导致后续无法恢复的问题,并且不会损失小物体大位移的信息。
从粗糙到精细:
在光流估计时从低分辨率(粗糙)逐步到高分辨率(精细)进行匹配。
主要思想:先在图像的粗糙版本中获得一个大致的光流估计,然后逐层细化,逐步增加分辨率,使得最终的高分辨率估计能够保留更多的细节和精度。
循环更新算子:
RAFT的更新算子是循环的、轻量级的,并且共享权重。传统方法通常在迭代之间不共享权重,限制了迭代次数。RAFT的更新算子由一个卷积GRU组成,在4D多尺度相关体上进行查找,允许网络进行更多的迭代而不发散。
全对相关性体积:
RAFT引入了全对(all-pairs)相关性体积的概念,通过计算所有像素对之间的相似度来构建4D相关性体积,用迭代方式估计光流。
RAFT架构:
编码器:
特征编码器(Feature Encoder):
从两个输入图像(L1和L2)中为每一帧图像中的每个像素提取特征,特征被用来计算像素之间的相似性。
目的:
提取的特征用于构建4D相关性体积,比较L1和L2中所有像素对之间的视觉相似性,为光流估计提供基础。
构成:
6个残差块,2个分辨率、2个
分辨率、2个
分辨率
归一化方法:
使用实例归一化,对每个样本独立进行,有助于在特征提取时保持样本间的独立性。
输出:
分辨率,
上下文编码器(Context Encoder):
仅从第一输入图像(L1)中提取特征,提取整个图像的上下文特征。
目的:
提取的特征用于提供额外的上下文信息,帮助网络更好地理解场景内容,辅助光流的估计和细