【无标题】

小小谭读论文(一)

博主是中海大计算机研0,目前方向是MVS三维重建
今天我们要读的论文是 :《3D=RETR:End-to-End Single and Multi-View 3D Reconstruction with Transformers》
该文章收录于BMVC2021



文献翻译

Abstract

三维重建旨在从二维图像中重建出三维物体,之前的用于三维重建的网络主要关注图像之间的特征匹配或者使用CNN网络作为主干网络,最近,Transformer网络被证实在大量的计算机视觉应用中是有效的,然而Transformer网络是否可以备用与3D重建仍然是未知的,在这篇文章中,我们通过提出3D-RETR解决了这个问题,3D-RETR能够使用Transformer来执行端到端的3D重建。3D-RETR首先使用一个预训练好的Transformer来从2维的输入图片中提取视觉特征。随后使用其他Transformer Decoder 来获取体素特征。一个CNN Decoder随后把体素特征作为输入,从而获得重建的对象。3D-RETR能工用于单张或多张图的重建,在两个数据集上的实验结果表明,3DRETR在三维重建方面达到了最先进的性能,消融实验也证明3D-DETR也从Transformer网络中受益

Introduction

3D重建侧重于使用对象的单个或多个2D图像来重建其3D表示,3D重建技术在许多的downstream任务中有重要的作用,包括CAD,人类检测,建筑等。广泛的运用激励研究者们去研发各种各样的3D重建技术。早期的3D重建技术大多数利用同一物体的不同视角图片之间的特征匹配。然而,这种方法的性能大部分依赖于在不同的视角物体之间的准确和连续的边缘 以及对于视图间的快速变化敏感。除此以外,这些方法不适用于单视角的三维重建任务。
深度学习的先进性为基于神经网络的三维重建方法提供了一些启示,一方面,一些研究者们吧3D重建变成一系列连续的学习问题和使用RNN来解决这一系列问题。另一方面,一些研究者们将编码器-解码器结构用于三维重建。除此以外研究者们还把GAN网络用于三维重建的任务上。然而这些任务常常依赖于复杂的神经网络管道,并且建造模型时伴随着大量的参数,这对计算的要求是十分高的
最近,Transformer在视觉领域得到了关注,基于Transformer的模型已经在许多计算机领域的downstream应用中取得了较高的性能,包括图像分类,语义分割,图像超分辨等,除了这些成就以外,其是否能够用于三维重建还是不清楚的。
在这篇文章中,我们提出了3D-RETR,它是一个能够用Transformer来执行端到端并且三维重建的方法,它使用预训练的Transformer来从二维图像上提取出视觉特征,随后通过解码器获得3D体素特征,最后一个CNN解码器从体素特征中输出三维表示。
1、提出一个3D-RETE用于基于Transformer进行端到端的单张和多张3D重建,据我们所知,我们是第一个使用Transformer进行端到端的3D重建,实验结果表明,该方法在人工和真实世界中都取得了最高的性能
2、我们进行了额外的笑容实验来理解该网络的每一个部分是如何对最后的性能做出贡献的,实验结果表明我们选择的编码器、解码器和损失函数都是较好的
3、该方法与以前的方法相比是高效的,该方法相对于以前的方法达到了更高的性能,尽管它的模型参数更少。

Related Work

2.1 3D重建

3D重建已经广泛用于各类downstream应用,例如,,,,,,等(和之前的一样),研究者们主要关注于两种形式的三维重建方法,一些研究者使用深度相机来获取图像和深度信息,其随后用于三维重建,然而,上述工作需要复杂的硬件以及数据收集工作,因此在许多场景不够实用
为了解决这个问题,其他研究者们已经采用从单个或多个图像中来获取三维重建,这些图像仅仅是二维图像,例如[1]使用多阶段的平行匹配算法来做特征匹配,同时[8]中提出一个高效的将用于高校图像匹配和重建的哈希算法,尽管这些方法是有用的,当他们处理的图片过大时,其效果不尽如人意
最近的网络主要关注于基于神经网络的方法,一些研究者们吧这些问题看做成一系列的学习方法,例如[10]提出一个3DRNN方法,该方法它在每个时间步长取一个视图作为输入,并输出重构的对象表示,其他的应用编码器-解码器结构通过首先编码二维图像成为一个固定大小的向量,通过解码器解码出三维表示,此外,研究者使用GAN网络和3D-VAE来进行三维重建。然而这些基于神经网络的方法通常以来与复杂的卷积网络且参数量较大,计算消耗量大。

2.1 Transformer

—**研究人员首先提出了用于自然语言处理[46]的转换器,包括机器翻译、语言建模等。转换器使用多头自注意机制,在该机制中,来自特定时间步长的输入将关注整个输入序列
最近,Transformer从计算机视觉领域得到了大量的关注,VIT通过将图片作为patches喂入网络中在图像的分类中达到了很高的性能。DeiT比VIT达到了更高的性能,同时有更少的预训练数据和更小的模型参数大小。Ttransformer也在其他视觉的应用中起到了很好的效果例如…
在这篇文章中,我们提出了一个3D-RETE,它由Transformer 编码器、解码器和其他的CNN解码器所组成。

2.1 可微渲染

最近,可微渲染的方法例如SRN,DVR,NeRf,and IDR变得流行,这些方法简介的表述场景通过深度神经网络并且达到令人深刻的印象,然而这些网络需要评估他们的神经网络千次来提取几何信息,导致很长的推理时间
相反,我们的方法以及以前的一些三维重建方法,旨在重建体积而不是渲染二维图,我们的方法学习3D-RETR在输入2D图像之前学习3D形状,并在推断时间期间生成3D体素
提示:以下是本篇文章正文内容,下面案例可供参考

Methodology

请添加图片描述
从高水平,3D-RETR由三个主要的部分组成,(上图所示),Transformer Encoder将图像作为输入,其随后被编码为固定大小的图像特征向量,随后Transformer解码器通过交叉主义图片特征获取体素特征,最后CNN解码器解码成3d表示。

3.1 Transformer Encoder

一个视觉Transformer将一些列的图片X分成B²个patch作为输入,每一次相对应的patch通过首先的线性Transformer被嵌入成一个固定大小的向量,随后被嵌入位置参数。Transformer将嵌入的块特征作为输入并且输出B²个编码后的密集图像特征向量(dense image feature vectors),对于单张图片的重建,我们保留所有的B²个密集图片向量,对于mvs,在每一次步骤,我们在不同图像中取平均,并且保存平均的B²个密集图片向量
在我们的实践中,我们使用DeiTher,我们的基础模型,3D-RETR-B使用DeiThe Base作为Transformer的编码器,DeiT-B有12个层,每一个层有12个头和768个维度的隐藏嵌入层。至于小模型,3D-RETR-S,使用了DeiT Tiny作为Transformer的编码器,他有12个层,每一个层有三个头部和192个维度的隐藏嵌入层。这两个规模大小的模型都以B=16,我们将所有的dense image vectors喂到下一个阶段的解码器。
请添加图片描述

3.1 Transformer Dncoder

Transformer Decoder将 M³个学习到的位置嵌入作为输入并且交叉关注变压器编码器的输出,我们的解码器有点像DETR中的,在解码器中平行的输入向量而不是而不是像原始Transformer中那样自回归。
3D-RETR-B模型有一个8层的Transformer-Decoder,每一个层有12个头部和768维度的隐藏嵌入,对于3D-RETR-S,我们使用一个6层的Transformer Decoder来理解不同体素特征之间的空间关系,我们创造了 M³个位置嵌入给Transformer Decoder 位置嵌入是课学习的并且在训练时进行更新,我们取M=4

3.1 CNN Dncoder

CNN解码器将来自于TD(Transformer Decoder)的体素特征作为输入并且输出体素表达,因为上面两个阶段已经给出了很丰富的信息,我们使用相关简单的结构应用于CNN Decoder,CNN解码器首先将体素特征向量堆叠成大小为M3的立方体,然后迭代地对立方体进行上采样,直到获得所需的分辨率。
图片2展示了我们CNN 解码器的构造,具体来说,CNN 解码器有两个残差块,每个层由四个转置的3D卷积层组成,对于每一个残差块,我们首先两个卷积层的卷积核大小为3×3,最后一层大小为1×1,。除此以外,所有的三个层都有64的通道,对于转置j3D卷积层满所有的三个层kenel都为4,步伐为2,通道为64,padding为1,我们增加一个额外的1×1的卷积层在CD的末尾来压缩64个通道为1个通道,模型最终输出cube size 为32的3次方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值