RAFT: Recurrent All-Pairs Field Transforms for Optical Flow用于光流估计的循环全对场变换

没有不重的名么

于 2024-11-12 17:25:15 发布

阅读量1.2k

点赞数 35

分类专栏：目标跟踪文章标签：目标跟踪 gru 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61595251/article/details/143688672

版权

背景：

1.光流估计是一个长期存在的计算机视觉问题，对于理解视频内容至关重要。

2.光流估计面临的挑战包括快速移动的物体、遮挡、运动模糊和无纹理表面。

3.传统方法通常将光流估计视为一个手工优化问题，但这些方法在处理各种特殊情况时存在困难。

4.深度学习方法提供了一种替代方案，可以直接预测光流，避免了复杂的优化问题。

创新点：

高分辨率处理：

RAFT是第一个跳出coarse-to-fine（从粗糙到精细）框架的光流匹配算法，它在高分辨率下处理并保持单个固定的光流场，避免低分辨率下预测错误导致后续无法恢复的问题，并且不会损失小物体大位移的信息。

从粗糙到精细：

在光流估计时从低分辨率（粗糙）逐步到高分辨率（精细）进行匹配。

主要思想：先在图像的粗糙版本中获得一个大致的光流估计，然后逐层细化，逐步增加分辨率，使得最终的高分辨率估计能够保留更多的细节和精度。

循环更新算子：

RAFT的更新算子是循环的、轻量级的，并且共享权重。传统方法通常在迭代之间不共享权重，限制了迭代次数。RAFT的更新算子由一个卷积GRU组成，在4D多尺度相关体上进行查找，允许网络进行更多的迭代而不发散。

全对相关性体积：

RAFT引入了全对（all-pairs）相关性体积的概念，通过计算所有像素对之间的相似度来构建4D相关性体积，用迭代方式估计光流。

RAFT架构：

编码器：

特征编码器（Feature Encoder）：

从两个输入图像（L1和L2）中为每一帧图像中的每个像素提取特征，特征被用来计算像素之间的相似性。

目的：

提取的特征用于构建4D相关性体积，比较L1和L2中所有像素对之间的视觉相似性，为光流估计提供基础。

构成：

6个残差块，2个 $\frac{1}{2}$ 分辨率、2个 $\frac{1}{4}$ 分辨率、2个 $\frac{1}{8}$ 分辨率

归一化方法：

使用实例归一化，对每个样本独立进行，有助于在特征提取时保持样本间的独立性。

输出：

$\frac{1}{8}$ 分辨率， $D=256$

$g\theta :\mathbb{R}^{H*W*3} \mapsto \mathbb{R}^{\frac{H}{8}*\frac{W}{8}*D}$

上下文编码器（Context Encoder）：

仅从第一输入图像（L1）中提取特征，提取整个图像的上下文特征。

目的：

提取的特征用于提供额外的上下文信息，帮助网络更好地理解场景内容，辅助光流的估计和细

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。