双目立体视觉论文阅读(1)STTR

STTR——《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》
在这里插入图片描述
论文链接:
STTR
代码链接:
STTR

本文从Seq2Seq的角度重新审视了深度估计问题,使用位置信息和注意力将cost volume construction替换为密集的像素匹配。表现SOTA!性能优于Bi3D、GwcNet和LEAStereo网络,代码刚刚开源!

一.本文创新点:

1. 放宽了固定视差范围的限制;
2. 识别被遮挡的区域并提供估计的置信度;
3. 在匹配过程中施加了唯一性约束。

二.网络结构分析:

在这里插入图片描述

1. Feature Extractor

使用了沙漏网络结构,编码部分使用残差和金字塔池化,为了实现更高效的全局上下文采集。解码部分使用转置卷积,dense-blocks和最后的卷积输出层。得到的特征图和原图尺寸一样。

2. Transformer

本文使用图2所示的注意力模型,使用的是参考文献[1]中的注意力机制:沿着相同图像的极线对像素做自注意力,沿着左图和右图中对应极线的像素计算交叉注意力。我们在N-1层中交叉计算自注意力和交叉注意力。这样的交替方案基于图像的上下文和位置信息保持了特征描述的更新。在最后的交叉注意力层,我们使用最多的注意力像素来估计粗略的视差图。并且增加了最佳点乘操作,确保符合唯一性约束并且用于减少空间搜索的注意力mask估计。
在这里插入图片描述

2.1 Attention

这里使用multi-attention,通过把特征描述分成了N组增加了特征的描述能力。
Ch=Ce/Nh,
Ch是每个head的特征通道数,Nh是head的数量。每个head中使用线性映射的集合用于计算矩阵Q、K、和V,
在这里插入图片描述

2.2相对位置编码

为了解决弱语义区域的估计,本文提出通过位置编码提供数据相关的空间信息。选择使用像素的相对位置信息而不是绝对位置信息。
值得注意的是,本文中使用的这种方法把计算量从二次降低到了线性。

2.3 粗略视差图和遮挡回归

使用修改后的winner-take-all方法,替代以前使用的所有视差的加权和。

3 语义调整层

在这里插入图片描述
根据交叉极线上的信息,结合原图去使用卷积来进行优化。

4.实验结果

在这里插入图片描述
在这里插入图片描述

[1]. Daniel Scharstein, Heiko Hirschmüller, York Kitajima, Greg Krathwohl, Nera Neˇ si´ c, Xi Wang, and Porter Westling. High-resolution stereo datasets with subpixel-accurate ground truth. In German conference on pattern recognition, pages 31–42. Springer, 2014. 6, 14

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值