STTR: Revisiting Stereo Depth Estimation From a Sequence-to-Sequence...(ICCV 2021)

FLOWVERSE

已于 2022-02-14 13:49:59 修改

阅读量1.7k

点赞数 6

分类专栏： # 基于深度学习的立体匹配文章标签： transformer 深度学习自然语言处理

于 2021-04-29 15:30:46 首次发布

本文链接：https://blog.csdn.net/flow_specter/article/details/115218428

版权

基于深度学习的立体匹配专栏收录该内容

15 篇文章 28 订阅

订阅专栏

transformer来源于谷歌的一篇非常有名的文章：《attention is all you need》。用于的领域是NLP领域。这篇文章的名字很有意思，意思几乎是说，你不需要用RNN，你也不需要用CNN，你所需要的，只有attention层。transformer在NLP中一个很重要的应用是BERT。

2020年，Google在提出了一个将transformer应用在图像分类的模型ViT（vision transformer），具体思路为：将图像分为固定大小的patch，通过线性变化将其变为向量，并将其embeeding进transformer，之后便对其进行分类。transformer的结构通常来说是encoder+decoder，实质上，ViT仅仅使用了transformer的encoder部分，目的是提取特征。

在谷歌尝试将transformer应用至图像领域并获得了较好的效果后，难免会让人想要将transformer应用至视觉领域中的其他任务，比如说立体匹配等。以STTR的模型为transformer在立体匹配中的应用为例进行笔记记录，出自的文章为《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》（Zhaoshuo Li等人，作者单位：Johns Hopkins University）。这篇文章主要从seq2seq的角度去看待深度估计问题，将代价空间的构建步骤用transformer替代了。

个人认为，现在的DL-based stereo主要是两个思想，一个是基于传统的改进与嵌入，将传统方法中的不可微的东西进行修改，使其可微，就可以将其嵌入进网络中训练了，另一个则是基于深度学习本身的发展，比如特征提取模块，优秀的backbone，以及像transformer这些优秀的block。

下文的文章结构为：
在原理中，首先回顾transformer在《attention is all you need》中的结构及描述，其次介绍其在STTR模型中的应用。
在实验中，首先描述论文中所给出的模型结果，其次给出作者开源代码的环境配置等实际操作。

原理

transformer 结构回顾

整体结构以及在NLP中的可视化表述

如果已经理解transformer里的各个结构的话，可以直接看这个总结性的ppt：下图即为transformer的整体描述图，摘自李宏毅老师的transformer课程PPT。
在这里插入图片描述
下图为在NLP中的attention的感性认识，描述的其实是输出的某一个word对输入的sequence中的每一个word的attention，这个所谓的attention，我个人的理解就是更广义的similarity。

transformer中的第一步解构：encoder与decoder

在这里插入图片描述
左半部分是encoders，右边是decoders，左右的Nx意思是有N个encoder、decoder（用stack的方式连接）。

encoder

在这里插入图片描述
由着箭头的走向，可以将encoder分为三个部分，分别为输入部分（embedding、位置信息嵌入）、注意力机制、前馈神经网络。

输入部分
- embedding
  word2Vec或者随机初始化
- 位置编码
  RNN是天然的时序，而transformer是并行的，也因此忽视了时序的关系，这就需要利用位置编码进行弥补。对于一个词向量的奇数位置以及偶数位置分别利用公式进行不同的编码，再和处理前的词向量进行相加。
  已知sin以及cos具有以下的性质
  $\left\{\begin{array}{l} \sin (\alpha+\beta)=\sin \alpha \cos \beta+\cos \alpha \sin \beta \\ \cos (\alpha+\beta)=\cos \alpha \cos \beta-\sin \alpha \sin \beta \end{array}\right.$
  那么，自然有：
  $\left\{\begin{array}{l} P E(\text { pos }+k, 2 i)=P E(\text { pos, } 2 i) \times P E(k, 2 i+1)+P E(p o s, 2 i+1) \times P E(k, 2 i) \\ P E(p o s+k, 2 i+1)=P E(p o s, 2 i+1) \times P E(k, 2 i+1)-P E(p o s, 2 i) \times P E(k, 2 i) \end{array}\right.$
  该式则表达了pos位置与k位置的位置向量的关系，也就蕴含了相对位置的信息。

至于位置编码为什么是和embedding vector进行相加，而不是进行concat，李宏毅老师则给出了以下的解释：
在这里插入图片描述

注意力机制
self-attention是一种比较新的layer，可以和RNN有类似的效果，输入是一个sequence，输出也是一个sequence，但是相对于RNN来说，拥有着RNN有的优点，即每一个seq的输出都是已经看过所有输入的了，同时，又克服了RNN的缺点，即可以并行。
下图为李宏毅老师transformer课程中的一个self-attention的截图（若侵则删）：

计算attention离不开是三个矩阵：Q、K、V：

在这里插入图片描述
什么是attention？其实可以将其理解为一种两两之间的相似度。点乘是一个向量在另一个向量上投影的长度，常被用于表示相似度。在transformer中，用来计算attention的方式是scaled Dot-Product Attention，为什么要除以 $\sqrt{d}$ 呢，原因是dimension越大，值就会越大（不过除以不除以 $\sqrt{d}的影响有多大，并没有做过实验，可以做实验试一下$ ）。得到attention后，再做soft-max，再做weighted sum得到。由下图可见，在得到 $b^1$ 时，已经看过了 $a^1$ 至 $a^4$ 了，是一个weighted sum的过程。引申至立体匹配时，我不经想到该sef-attention可以进一步替代传统匹配方法中代价聚集的部分，比如说在基于双边滤波、引导滤波或者说基于MST、ST的代价聚集过程中，其实都是想在找全图中与待聚集像素在某种意义上相似的像素，然后进行类似于weighted sum的操作。
在这里插入图片描述
下图为做并行化的示意图，其实就是将embedding的vectors进行矩阵化。

下一步再做weighted sum：

在这里插入图片描述
再回顾一下seelf-attention的整体结构，为：

$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$

在实际中，用multi-head，也就是得到多头，用到各自的Q，K，V，也就可以捕捉到多个信息。multi-head的好处就是，有的head想看local的信息，而有的head想看global的信息。以下为以两个head为例的示意图。
在这里插入图片描述
如果对 $b^{i,1}$ 以及 $b^{i,2}$ 不满意的话，可以对其做降维：

以机器翻译的场景为例，mutli-head 的示意图：绿色的head更注意到长距离的attention信息，红色的attention更注意到local或者说短距离的attenton信息。
在这里插入图片描述
- 残差网络
根据链式法则的推导，加入残差网络可以有效缓解梯度消失的问题，也因此可以使得网络层数更深一些。

Layer Normalization(简称LN)
BN在NLP中效果比较差。BN是对一个batch中的每一个维度的特征分别去做BN，基于的假设是batch中的第一行都是同一个维度。BN在batch_size小的时候效果比较差，因为是用batch的均值和方差来模拟所有的数据。然而，由于RNN的输入是动态的，也就是说长度不同，那么BN自然就不那么适用了。LN则是在对输入的一个句子的句向量做均值和方差，也就是词向量的加权。

前馈神经网络

注意，encoder生成的是K和V矩阵，decoder生成的是Q矩阵。

decoder

在这里插入图片描述
相比起encoder，有多一个masked multi-head attention，为什么？因为模型训练的时候，可以看到后面的句子，而预测的时候看不到后面的句子，为了处理掉这个模型训练和预测之间的gap，需要在decoder中进行的模拟，也就需要在decoder中将后面的句子给mask掉，不让网络看到。

STTR中的方法原理

STTR的整体网络结构为：
在这里插入图片描述
可以明显地看到，相对于常规的DL-based Stereo方法来说，STTR用transformer替换了cost volume，输入输出也有所不同。
在transform中的输入为左右特征图的核线，然后经过self-attention以及cross-attention。

self-attention以及cross-attention

在STTR中，使用了两种attention机制，一个是self-sttention，另一个是cross-attention。self-attention使用了自身影像中的语义信息，cross-attention则使用了两张影像之间的语义信息，随着层数的增加，attention将从全局的语义缩小至局部的语义。在比较大的纹理缺失的区域，attention倾向于关注主要特征，比如说边缘等。
在文章中用的multi-head的attention，所谓的multi-head是将特征编码 $C_e$ 切分为 $N_h$ 个的group，每个head的通道就有 $C_h=C_e/N_h$ 。每个head就是各自独立的group，各自的feature channel是不一样的，也因此有着不同的表达，可以计算各自的相似性。
对于某一个head来说，不妨将该head命名为 $h$ ，将 $h$ 所对应的query向量命名为 $\mathcal{Q_h}$ ，key向量命名为 $\mathcal{K_h}$ ,value向量命名为 $\mathcal{V_h}$ ，query、key以及value向量均可以通过特征描述子 $e_I$ 的线性变换得到，具体见下式：

$\begin{array}{l} \mathcal{Q}_{h}=W_{\mathcal{Q}_{h}} e_{I}+b_{\mathcal{Q}_{h}} \\ \mathcal{K}_{h}=W_{\mathcal{K}_{h}} e_{I}+b_{\mathcal{K}_{h}} \\ \mathcal{V}_{h}=W_{\mathcal{V}_{h}} e_{I}+b_{\mathcal{V}_{h}} \end{array}$
在这里插入图片描述

可以通过softmax的方式得到query向量与key向量之间的点积相似度：
$\alpha_h=softmax(\frac{\mathcal{Q_h^T}\mathcal{K_h}}{\sqrt{C_h}})$
multi-head输出的value向量为：
$\mathcal{V_O}=W_{\mathcal{O}}Concat(\alpha_1\mathcal{V_1},...,\alpha_{N_h}\mathcal{V}_{N_h})+b_{\mathcal{O}}$
value向量 $\mathcal{V_O}$ 将被直接加到原本的特征描述子的后面，形成一个残差连接：
$e_I=e_I+\mathcal{V_O}$
对于self-attention来说， $\mathcal{Q_h}$ , $\mathcal{K_h}$ , $\mathcal{V_h}$ 从同一张影像中计算而得。而对于cross-attention而言， $\mathcal{Q_h}$ 由source image计算而得，另外的 $\mathcal{K_h}$ 以及 $\mathcal{V_h}$ 则由target image计算而得。

Relative Positional Encoding相对位置编码，简称RPE

因为影像的attention本身所能够提供的信息并不够，因此额外选择了RPE（Relative Positional Encoding）的方式来提供位置信息。
在传统transformer中，位置的编码是直接加到特征描述图上的，这点在前面也介绍过，还给出过李宏毅老师对为什么是直接加的不同角度的解释。不妨设绝对位置编码为 $e_p$ ，特征描述图为 $e_I$ ，直接加上之后，就有：
$e=e_I+e_p$
再根据attention中的下面两个公式：
$\begin{aligned} \mathcal{Q}_{h} &=W_{\mathcal{Q}_{h}} e_{I}+b_{\mathcal{Q}_{h}} \\ \mathcal{K}_{h} &=W_{\mathcal{K}_{h}} e_{I}+b_{\mathcal{K}_{h}} \\ \mathcal{V}_{h} &=W_{v_{h}} e_{I}+b_{V_{h}} \end{aligned}$
以及：
$\alpha_{h}=\operatorname{softmax}\left(\frac{\mathcal{Q}_{h}^{T} \mathcal{K}_{h}}{\sqrt{C_{h}}}\right)$
省略softmax以及向量 $b$ ，将 $e_I$ 用 $e_I+e_p$ 代替，对于attention矩阵中的某一个element来说，整理有：
$\begin{array}{r} \alpha_{i, j}=\underbrace{e_{I, i}^{T} W_{\mathcal{Q}}^{T} W_{\mathcal{K}} e_{I, j}}_{\text {(1) data-data }}+\underbrace{e_{I, i}^{T} W_{\mathcal{Q}}^{T} W_{K} e_{p, j}}_{\text {(2) data-position }}+ \\ \underbrace{e_{p, i}^{T} W_{\mathcal{Q}}^{T} W_{\mathcal{K}} e_{I, j}}_{\text {(3) position-data }}+\underbrace{e_{p, i}^{T} W_{\mathcal{Q}}^{T} W_{\mathcal{K}} e_{p, j}}_{\text {(4) position-position }} \end{array}$

第（4）项只跟像素 $i$ ，像素 $j$ 的位置有关，然而，作者认为，视差只应该跟图像的信息有关，对于绝对的位置来说，没有关系，所以这项应该被丢弃掉。进而，作者通过将式（2）中的 $e_{p,j}$ ，即像素 $j$ 的位置编码信息替换为 $e_{p,i-j}$ ，即像素 $i - j$ 的位置信息，将式（3）中的 $e^T_{p,i}$ 变换为 $e^T_{p,i-j}$ ，并直接舍弃第四项的方式，实现了RPE模块。
不过我在这里有一个疑问，为什么不管 $e_{p,j}$ 还是 $e^T_{p,i}$ ，都变换成了 $e_{p,i-j}$ ，而不是一个变为 $e_{p,i-j}$ ，另一个变为 $e_{p,j-i}$ ？（原文：where $e_{p,i−j}$ denotes the positional encoding between the i-th and j-th pixel）。直觉上来说，attention应当将取决于图像内容的相似性以及相对距离。

optimal transport，简称OT

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MHVu5yIl-1619746526145)(https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Semantic_Correspondence_as_an_Optimal_Transport_Problem_CVPR_2020_paper.pdf)]）](https://img-blog.csdnimg.cn/20210430093406436.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2Zsb3dfc3BlY3Rlcg==,size_16,color_FFFFFF,t_70)

optimal transport的理论可以参考博文。
OT的学习代码可以参考该github上的代码。（感谢各位前辈的开源工作）

OT在这里出现的作用是模拟传统方法中的唯一性约束。个人认为，也算是将传统方法中的某些思想嵌入进网络中，与GA-Net、SGM-NETs等传统改进的网络在某种角度上有着类似的思想。

$\begin{array}{l} \mathcal{T}=\underset{\mathcal{T} \in R_{+}^{I_{w} \times I_{w}}}{\operatorname{argmin}} \sum_{i, j=1}^{I_{w}, I_{w}} \mathcal{T}_{i j} M_{i j}-\gamma E(\mathcal{T}) \\ \text { s.t. } \mathcal{T} 1_{I_{w}}=a, \mathcal{T}^{T} 1_{I_{w}}=b \end{array}$

直观上来看， $\mathcal{T}$ 中的每个元素代表的是逐对的匹配概率，和attention很类似。但是由于occlusion，有些像素是无法形成匹配对的，对于这些像素来说，作者通过再加上一个学习参数 $\phi$ 来对其进行表示，即，代表unmatched pixel的cost。注意，代价矩阵M是cross-attention计算的负数，但是，并没有做softmax，因为OT的过程会归一化attention数值的。

attention mask模块，简称AM

在seq2seq模型中，AM主要出现在decoder部分，为的是模拟真实翻译时我们用户不知道输入sequence未出现信息的情况，而在STTR中的AM，有些不一样。

假设同名点在左右某条核线上的位置为： $x_L$ ， $x_R$ ，且在左右没有问题的时候，我们通常认为 $x_L$ 绝对是大于 $x_R$ 的，也因此， $x_L$ 的同名点 $x_R$ 在右图的位置理论上是一定会小于 $x_L$ 坐标的，这样也就相当于施加了一个几何约束。在STTR中的AM，实际上就是为了施加这样的约束。AM实际上是一个下三角的二值mask，作用于attention上。
在这里插入图片描述

Raw Disparity and Occlusion Regression

作者不采用加权和的方式进行视差回归，而是采用改进的WTA方式，并认为该方式对于multi-modal的分布更加鲁棒。
从optimal transport assignment矩阵 $\mathcal{T}$ 中选取最有可能的匹配，标记为 $k$ 。并且在 $k$ 周围建立起了3个像素的窗口，命名为 $\mathcal{N_3}(k)$ （对该窗口进行normalization，使得窗口内的匹配概率的加和为1）。
假设候选视差的加权值为 $\tilde{d}_{\text {raw }}(k)$ ，设在assignment matrix $\mathcal{T}$ 中的元素，即匹配概率，为 $t$ ，因此有：
$\begin{array}{c} \tilde{t}_{l}=\frac{t_{l}}{\sum_{l \in \mathcal{N}_{3}(k)} t_{l}}, \text { for } l \in \mathcal{N}_{3}(k) \\ \tilde{d}_{r a w}(k)=\sum_{l \in \mathcal{N}_{3}(k)} d_{l} \tilde{t}_{l} \end{array}$
至于匹配 $k$ 的occlusion概率的计算公式为：
$p_{o c c}(k)=1-\sum_{l \in \mathcal{N}_{3}(k)} t_{l}$

在这一步中，STTR不仅识别出了occlusion，还进一步给出了occlusion的置信度，是文章的一个亮点。

Context Adjustment Layer，简称CAL

视差的回归，以及遮挡图都是在核线上进行的，也因此缺少跨核线的信息。为了解决这个问题，作者使用了以下结构进行跨核线信息的聚集，即所谓的CAL：

在这里插入图片描述
对于occlusion，首先将left image以及occlusion进行concat，然后用两个卷积block+relu对其concat的信息进行处理，相当于聚合了occlusion的信息，然后得到最后的occlusion，没什么好说的。
对于final的视差来说，residual block首先将通道进行了扩展，然后再存回原本的通道维度中，并将raw disparity与residual block的输出进行concat，如此往复。

我认为，这个模块主要是将left image的信息融入了，即所谓的context adjustment。

实验

ablation studies

进行ablation studies的数据为Scene flow。
主要实验的模块有，attention mask（简称AM），optimal transport layer（简称OT），context adjustment layer（简称CAL），以及relative Positional encoding（简称RPE）。
测试的结果如下表：
在这里插入图片描述
看起来每一个模块加进去，整体的精度都是有所上升的。

参考链接

https://mp.weixin.qq.com/s/zBsHIPSwmfxEI4zTz5Q5Cw
李宏毅老师的transformer视频：https://www.youtube.com/watch?v=UYPa347-DdE

FLOWVERSE

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
STTR: Revisiting Stereo Depth Estimation From a Sequence-to-Sequence...(ICCV 2021)

2020年，Google在提出了一个将transformer应用在图像分类的模型ViT（vision transformer），具体思路为：将图像分为固定大小的patch，通过线性变化将其变为向量，并将这个向量们embeeding进transformer，之后便对其进行分类。transformer的结构通常来说是encoder+decoder，实质上，ViT仅仅使用了transformer的encoder部分，目的是提取特征。将2D的参考链接https://mp.weixin.qq.com/s/zB
复制链接

扫一扫