深度估计-双目-STTR

阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》记录

论文地址:https://arxiv.org/abs/2011.02910

代码地址:GitHub - mli0603/stereo-transformer: Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers. (ICCV 2021 Oral)

1. STTR用transformer的注意力机制和位置编码重新给出了双目立体匹配的解法,该论文提出了三个非常有建设性的想法:1)不需要显示设定视差范围;2)给出了被遮挡区域和预测的置信度;3)在特征匹配中添加唯一性约束。

2. STTR网络流程图如下:

左右图像的行和列向量分为表示为I_{h}I_{w},特征描述子的通道数为C。

3. 特征提取:

特征提取模块用的是encoder-decoder结构的CNN网络,encoder部分用了残差网络和空间金字塔池化模块,decoder是反转卷积和全连接层。记每个像素的特征描述子为向量e_{I},维度为C_{e}

4.Transformer:

4.1 transformer整体结构:

4.2 self-attention和cross-attention

self-attention和cross-attention遵循attention模块KQV及多头注意力机制的所有运算规则;

self-attention用于计算同一张图像上极线上像素点的关联关系,QKV在同一张图中计算;cross-attention用于计算左右两张图像上极线上像素点的关联关系,Q在原图上计算,KV在匹配图上计算,而且cross-attention的计算是双向的,实验效果如下:

4.3 Relative Positional Encoding:

为了解决无纹理区域的匹配问题,引入了相对位置编码,利用无纹理区域相对于纹理显著区域的相对位置信息来完成像素点相关关系计算。

加入绝对位置编码后,每个像素的特征向量为:e = e_{I} +{\color{Blue} e_{p}}

代入4.2中相关性的表达式\alpha _{h} = softmax(Q_{h}^{T}*K_{h}/\sqrt{C_{h}}),可得:

由于引入位置编码是为了更好的辅助无纹理像素的匹配,所以只有position-position的第四项不符合文章的设计原则,因此删除了第四项,并将绝对位置换为相对位置,则有:

增加相对位置编码的实验效果如下:

 

4.4 Optimal Transport:

传统匹配方法是将右侧图像中的每一个像素至多匹配给左侧图像中的一个像素,然而这种硬的匹配方法无法计算梯度。因此采用了熵正则化的最优传输entropy-regularized optimal transport替代。M为cross-attention模块输出的代价矩阵。

  

4.5 Attention Mask:

对齐后的左右摄像头的图像的匹配点比为X_{R} \leqslant X_{L},因此在最后的cross-attention层,左图像只与右图像上坐标满足X_{R} \leqslant X_{L}的情况下才做计算,示意图如下:

5. Raw Disparity and Occlusion Regression: 

取4.4中找到最大匹配的概率,索引记为k,以该位置为中心的大小为3x3的窗口做归一化:

 

然后对视差进行加权平均:

 ​​​​​​​

匹配度越高,被遮挡的概率越小,因此对匹配度求反可以作为被遮挡的概率:

6. Context Adjustment Layer

上述4-5都是在同一条极线上得到的视差图及遮挡图,缺乏上下文信息,因此采用了卷积神经网络进一步调整,结构如图:

 

实验对比结果:

 

7. LOSS

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值