【论文简述】Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks(CVPR 2021)

一、论文简述

1. 第一作者:Xiaoxiao Long

2. 发表年份:2021

3. 发表期刊:CVPR

4. 关键词:深度估计、MVS、transformer、时间相关性

5. 探索动机:现在针对视频进行深度估计的方法没有充分考虑时间相干性,效率也不高。

these methods, especially for videos, have significant room for improvement in terms of temporal coherence and computational efficiency.

6. 工作目标:由两个独立的网络学习局部特征信息和全局语义信息解决上诉问题。

Our insight is that for depth estimation the local feature information and global semantic information can be learned by two separate networks, as inspired by recent Mixtureof-Experts models.

7. 核心思想:we propose a hybrid cost regularization network, consisting of two complementary expert sub-networks: a 2D ContextNet focusing on 2D global context information, and a shallow 3D MatchNet concentrating on 3D local matching information.

  • We proposed an Epipolar Spatio-Temporal (EST) transformer that propagates temporal coherence to perform joint depth estimation of multiple frames to make estimated depth maps more temporally coherent.
  • We designed a hybrid network for cost regularization that consists of two expert networks to learn 3D local matching information and 2D global context information separately. This decoupling approach achieves faster speed and consumes less computational resources than using a single fully 3D network in prior works.
  • Based on these two contributions we developed a new mutli-view method for generating temporally coherent depth maps from videos. 

8. 实验结果:

  • By explicitly disentangles these two different types of information, our hybrid network consumes much less GPU computational resources and achieves faster running speed.
  • Extensive experiments demonstrate that our method achieves higher accuracy in depth estimation and significant speedup than the SOTA methods.

9.论文&代码下载:

​​​​​​https://openaccess.thecvf.com/content/CVPR2021/papers/Long_Multi-view_Depth_Estimation_using_Epipolar_Spatio-Temporal_Networks_CVPR_2021_paper.pdfhttps://github.com/xxlong0/ESTDepth

https://github.com/xxlong0/ESTDepth

二、实现过程

1. ESTDepth概述

在训练阶段,以一段5帧的视频剪辑作为输入{It−2,It−1,It, It+1, It+2},结合短期时间相干性估计中间3帧目标帧的深度图。在推理阶段,模型通过一个极线时空内存(ESTM)推断操作来传播整个视频的长期时间相干性。简单地说,有以下四个部分:

  1. 混合代价体的产生。对于每个目标图像及其源图像,首先使用浅特征提取器提取特征图。对特征图进行单应性变化,构造原始匹配体,再通过MatchNet进行正则化,得到正则化的匹配体。同时,利用ContextNet提取目标图像的上下文特征体。最后,它将匹配体和上下文体连接在一起,形成混合代价体。
  2. 极线时空转换器。对所有得到的混合体应用EST变换器,使其具有时间相干性。
  3. 深度提取。初始深度图首先从转换后的代价体中提取出来,并通过RefineNet进一步改进。
  4. 极线时空记忆(ESTM)推理操作。在推理阶段,该操作在整个视频中传播长期的时间一致性。

2.  混合代价体产生

为了提高计算效率,我们利用两个专门的子网络MatchNetContextNet,分别学习两种类型的代价体,3D匹配体和2D上下文体。

2.1. 匹配体生成

将帧It与其相邻的帧It−1It+1分别作为参考图像和源图像。参考图像和其中一个源图像,分别记为IrIs

特征提取。通过空间金字塔池化(SPP)提取特征得到,32通道,下采样为原始图像的1/4特征图。

原始匹配体。通过单应性变化,得到源视图变化后的特征体Fs,维度为C×D×H×W,D = 64。最后,将Fs与Fr连接起来,维数增加到2C×D×H×W对于N个源图像,获得N个原始匹配体。

MatchNet。对N个原始匹配体进行3个3D卷积处理,通道数降为C,然后对这些体进行视图平均池化,将不同源图像的信息聚合,得到单个聚合体。再进行一系列3D卷积正则化。只学习局部特征。

2.2. 上下文体生成

先前的方法采用3D正则化网络,将二维上下文信息与3D局部匹配线索混合学习,并将网络做得非常深,以提高对两类信息的学习能力。作者观察到全局上下文信息本质上是二维信息,因此不需要使用3D网络来学习。因此,将全局上下文信息与局部匹配信息解耦,并使用一个称为ContextNet2D网络来学习前者。这使得网络更简单,从而更有效地训练和运行。

ResNet-50作为上下文网络,提取全局上下文信息,输出特征体C'×H×W,其中C'为特征通道数,与平面数D相同。为了融合3D匹配体和2D上下文体,将上下文体扩展到1xDxHxW,与正则化的匹配体连接,得到混合代价体Ct:(1+C) xDxHxW,对图像It−1ItIt+1分别做三次,得到三个Ct-1,Ct,Ct+1。

3. 极线时空transformer

为了将时间相干性与三个混合代价体Ct−1,Ct, Ct+1联系起来,提出了一个新的极线时空(EST)transformer

一致性约束。光度一致性假设:空间中一3D点,在不同图片上投影,投影附近的图像纹理应具有高度相似性。因此,将深度估计制定为占用估计问题如果图像的像素(u, v)具有深度值d,则Ct中的体素(u, v, d)被占用,即Ct的学习特征编码了每个体素的占用概率。将混合代价体视为在不同视图下对同一个3D世界空间的多次占用度量,即对于世界空间中的一个3D点,其对应的体Ct−1CtCt+1的体素应保持相似的嵌入向量。

极线变化。为了将时间相干性与混合体相关联,将混合体转换至相同的相机坐标空间。如下图,将混合volume转换到同一相机坐标系,将Ct-1和Ct+1 warp到和Ct相同的坐标系中,相当于相机在两个不同位置拍摄,转换到同一相机坐标系中。对于重叠区域,两个warp体和Ct在体素中应该包含相似的特征。

EST transformer。将transformer的混合体Ct表示为查询体,Ct−1Ct+1表示为内存体。为提高计算效率,没有在混合体上应用ESTtransformer,而是首先将查询体和内存体送入两个并行且相同的卷积层,分别生成两个新的压缩特征映射键kC/2×D×H×W,值vC/2×D×H×W将记忆键和记忆值记为kmvm,并warp到Ct的相机空间,得到warp键和值记为kwvw。然后计算查询键kq与warp键kw之间的相关性,得到相关体,度量kqkw的相似性。最后应用softmax层得到注意力体X1×N×D×H×W:

式中xi1×1×D×H×W表示查询与第i个内存体的warp键的相似度,N为内存体的个数,·为点积。

注意力图X用于从所有warp的内存值vw中检索相关值,以确定从何时和何处检索相关内存值。最后,将查询值和检索值融合在一起,得到最终输出C¯q:

其中vi w是第i个warp内存值,f(·,·)表示融合函数。

文中探讨了两种类型的融合函数:连接融合和自适应融合。对于连接融合,只是简单地将查询值和检索值连接在一起,不引入可训练的参数。但是,由于遮挡或表面反射,检索值中可能存在不正确的信息,而连接操作将所有信息平等地整合在一起。为了避免将错误的信息传播到当前估计,我们提出了一个自适应融合操作来融合查询值和检索值:

其中表示Hadamard积,w, rD×H×W是两个度量检索值可信度的的学习权重,g(·,·)是卷积层。ESTtransformer除另有说明外,均为自适应transformer

EST transformer应用于另外两个混合代价体Ct−1Ct+1,得到三个代价体C¯t−1C¯tC¯t+1。首先对转换后的体应用两个卷积层,生成大小为D × H × W的中间体,然后在深度维度上使用softma子,从而得到概率体P

4. RefineNet和深度回归

通过soft argmax从概率体P中计算期望深度图。将概率体回归的深度图表示为初始深度图,其尺寸与原始图像尺寸相比缩小了4倍,细粒度特征丢失,边界边缘呈锯齿状。因此,使用两阶段的RefineNet来逐步对初始深度图进行上采样,并增强细粒度特征,从而产生1/2分辨率的深度图和全分辨率的深度图。此外,在应用ESTtransformer之前,还从混合代价体中提取了深度图。因此,得到了四个阶段的估计深度图,将混合代价体、转换代价体和两阶段RefineNet的四种类型的深度图表示为Ds = 0,1,2,3

与之前工作中使用的单视图深度损失不同,利用多视图深度损失提供多个监督信号:

i为目标图像的索引,N为目标图像的数量,D为真实深度图,|| ||为L1范数。权重λ设置为0.8

5. 极线时空内存推断

在训练阶段,模型以5帧的短视频序列作为输入,联合估计三个具有短期时间相干性的目标图像的深度图。为了在整个视频中传播长期的时间相干性,提出了一个极线时空内存(ESTM)推断操作

如下图所示,保持一个滑动窗口,其中包含一个参考图像和两个源图像,以估计当前帧It的深度图。使用ESTtransformer,从存储N个过去帧的键值对的内存空间中检索相关值,从而可以利用不同时空位置的有用信息来估计当前帧的深度图。当滑动窗口继续移动时,内存空间也会相应更新,通过这种操作,长期的时间相干性将在整个视频中传播。

6. 实验设置

6.1. 数据集和评估指标

使用ScanNet数据集训,整个数据集包含超过1600个室内场景,提供彩色图像,真实深度地图和相机位姿。为了评估泛化能力,在7-Scenes和SUN3D数据集的测试集上进行跨数据集评估,不进行微调。

评估指标:To quantitatively evaluate the estimated depth, we use the standard metrics defined in [9]: i) inlier ratios (σ < 1.25i where i ∈ {1, 2, 3}); ii) Absolute error (Abs); iii) Absolute relative error (Abs Rel); iv) Square Relative error (Sq Rel); iv) Root Mean Square Error (RMSE); v) RMSE in log space (RMSE log).
效率指标:To measure computational complexity of models, we adopt the following metrics: i) the number of trainable parameters; ii) the number of Multiply–Accumulate Operations (MACs); iii) inference memory usage; iv) inferencetime cost.

6.2. 实现细节

在训练阶段,使用5帧的视频剪辑作为输入。帧从30fps视频中采样,间隔为10。模型使用
Pytorch与Adam,在4个GeForce RTX 2080 Ti GPU上训练的模型7个epoch(115k迭代)。

6.3. 与先进技术的比较

ScanNet and 7-Scenes。SOTA

7. 内存和时间

8. 限制

There are several limitations we plan to tackle in the future. First, since our method takes video frames with known camera poses as input, the accuracy of camera poses will influence the performance of our EST transformer. A general framework that jointly estimates camera pose and depth maps may alleviate this problem. Second, our work takes
only a short video clip into consideration, rather than estimate depth maps in a global optimization scheme for further potential improvement of temporal coherence.

### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华科附小第一名

您的支持对我的前行很重要!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值