论文阅读《RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching》

CV科研随想录

已于 2023-12-25 14:25:58 修改

阅读量1.5k

点赞数 2

分类专栏： CV顶会(刊)论文阅读文章标签：计算机视觉深度学习神经网络人工智能 python

于 2022-04-19 21:09:31 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/124267238

版权

CV顶会(刊)论文阅读专栏收录该内容

63 篇文章

订阅专栏

该文介绍了一种使用RAFT光流估计网络改进的双目立体匹配模型，通过多级卷积GRU模块传播全局信息。模型包括特征提取、相关性匹配代价体构建和多层级更新策略，实现了在不同尺度上优化视差估计，增强了对弱纹理区域的适应性。实验结果显示，该方法在立体匹配任务上取得了良好效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/2109.07547
源码地址：https://github.com/princeton-vl/RAFT-Stereo

概述

本文提出了一种适用于双目立体匹配的模型架构，基于光流估计网络RAFT，通过使用多级卷积GRU模块来在图像传播全局信息，并取得了不错的实验结果；

模型架构

在这里插入图片描述
对于给定的输入图像对 $I_L、I_R$ ，模型主要包含以下三个步骤：使用权值共享的CNN提取特征、构建相关性匹配代价体金字塔、使用GRU模型来从关联性金字塔中抽取特征，并对视差图进行更新。

特征提取

左右视图的图像经过特征提取器得到原图大小 $\frac{1}{4}H\times \frac{1}{4}W\times C \ 与 \ \frac{1}{8}H\times \frac{1}{8}W\times C$ 的feature Map，特征图用于构建correlation Volume。在Encoder部分使用 Instance Normalizaition
Context Encoder 使用类似的结构对 $I_L$ 处理得到内容特征图，一部分用于初始化GRU模块的隐藏状态(对应代码中的net_list)，一部分作为上下文信息特征(对应代码中的inp_list) 。

相关性金字塔

Correlation Lookup

在这里插入图片描述
文中定义了一种查找算子，对于某个像素点p与该点当前预测的视差值d，在每个level上的视差维度上以[d-r, d-r+1,…0, …d+r]来采样匹配值，最后将所有levle的匹配值cconcat得到一个新的correlation features $\in R^{b\times (2r+1)*level\times h\times w}$ 。（ $c_1$ 感受野较小，进行小范围视差搜索， $c_3$ 感受野较大，进行大范围视差搜索）

多层级更新策略

原始的RAFT只在单一尺度上进行视差优化，本文提出多级迭代优化策略用于增强模型对弱纹理区域的适应性：
在这里插入图片描述
此部分有点复杂，结合代码讲解，包含以下步骤：

使用 $1/32$ 尺度下 GRU 状态特征、 $1/32$ 尺度下的图像特征、与 $1/16$ 尺度下的GRU状态特征送入gru32的Conv模块中，更新当前level下的GRU状态特征；
使用 $1/16$ 尺度下 GRU 状态特征、 $1/16$ 尺度下的图像特征、与 $1/8$ 尺度下的GRU状态特征送入到gru16的Conv模块中，更新当前level下的GRU状态特征；
使用关联特征和初始的flow送入融合CNN，得到motion feature，使用 $1/8$ 尺度下 GRU 状态特征、 motion feature在与 $1/8$ 尺度下的图像特征送入二维GRU模块更新该level下的GRU状态特征；
将GRU隐藏状态特征送入CNN中得到光流偏移量；

    def forward(self, net, inp, corr=None, flow=None, iter08=True, iter16=True, iter32=True, update=True):
		# net ： GRU state feature list
		# inp ： img feature list
        if iter32:
            net[2] = self.gru32(net[2], *(inp[2]), pool2x(net[1]))
        if iter16:
            if self.args.n_gru_layers > 2:
                net[1] = self.gru16(net[1], *(inp[1]), pool2x(net[0]), interp(net[2], net[1]))
            else:
                net[1] = self.gru16(net[1], *(inp[1]), pool2x(net[0]))
        if iter08:

            motion_features = self.encoder(flow, corr)
            if self.args.n_gru_layers > 1:
                net[0] = self.gru08(net[0], *(inp[0]), motion_features, interp(net[1], net[0]))
            else:
                net[0] = self.gru08(net[0], *(inp[0]), motion_features)

        if not update:
            return net
        # caculate the delta_flow in high resolution scale
        delta_flow = self.flow_head(net[0])