三维形状和外观重建一次全搞定: DeepSurfels在线融合实现逼真重建

最新推荐文章于 2023-09-01 07:02:55 发布

3Ｄ视觉工坊

最新推荐文章于 2023-09-01 07:02:55 发布

阅读量657

点赞数

文章标签：计算机视觉机器学习人工智能深度学习编程语言

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

From: 苏黎世联邦理工学院；编译: T.R

近年来，基于学习的方法通过从RGB图像中直接学习几何和纹理映射来获取高质量的重建结果，但这些方法却不适用于局部在线更新，同时也无法有效处理大规模场景，且容易在训练数据上过拟合。

为了解决这些问题，来自苏黎世联邦理工学院和微软混合现实与AI实验室的研究人员提出了一种基于RGBD数据的在线三维外观融合重建方法，通过综合可有效处理拓扑变化和低频信息的隐式栅格、基于纹理图和学习到的特征，对高频特征进行处理；通过建立基于学习的外观融合框架，将其用于场景表达，使得在线融合与大规模场景重建成为可能。

更多详情，请参看论文原文：

论文链接：

https://arxiv.org/abs/2012.14240

利用深度传感器和图像对真实世界进行三维重建是计算机视觉领域的重要研究课题，对目标外观进行映射通常被作为3D表面重建的后处理过程来进行。但这种方式无法同时处理目标的所有数据，对于机器人导航、虚拟现实、SLAM等应用来说并不适用。

像KinectFusion等在线融合方法虽然适用于在线几何形状的融合过程，还能高效处理噪声和拓扑变化，但较高空间分辨率所带来的高内存消耗限制了其对于表面高频细节的编码。另一方面，包含高分辨率纹理图的网格表达十分适合用于编码高频的外观信息，但处于在线融合过程时却难以处理拓扑形状的变化。

为了解决这些问题，来自苏黎世联邦理工学院和微软混合现实与AI实验室的研究人员提出了一种基于RGBD数据的在线三维外观融合重建方法，通过综合可有效处理拓扑变化和低频信息的隐式栅格、基于纹理图和学习到的特征，对高频特征进行处理；通过建立基于学习的外观融合框架，将其用于场景表达，使得在线融合与大规模场景重建成为可能。

上图所示，即DeepSurfels的场景表达，以及基于学习的高效外观融合操作流入。如图，DeepSurfels是一种基于编码拓扑信息与低频几何特征的隐式曲面法和表达高频几何特征与外观surfel的混合表达方法。

其中，表面细节面片被整合到稀疏栅格中，编码来自RGB图像或者学习到的特征向量信息。这一稀疏栅格使得高效的体素渲染和显式的场景更新成为可能，这对于在线融合十分重要。

基于DeepSurfels的参数化，这一算法可以近似为介于带颜色的高精度体素表达(高栅格分辨率，1x1的片元)和带纹理的高分辨率网格(较低的低栅格分辨率和较高的高片元分辨率)间的高效表示方式。

这种在线融合方式可以逐帧地将RGBD数据流融合到DeepSurfels几何结构中，并利用可差分渲染和重投影误差作为训练信号。所以，这种方法不需要任何标注数据，并使得向其他传感器的迁移更为迅速，自监督的方法无需耗时耗力地构建GT数据。同时，它可以融合任意数量的输入帧，同时栅格匹配的面片可以有效促进局域特征聚合和采样密度控制。

基于DeepSurfels的3D场景表达

DeepSurfels是一系列L×L的纹理元，其中可以存储颜色或学习到的特征向量。其构成元素是方向性的纹理元权重w和特征通道c，c可以任意取值，当取3时表示RGB纹理。

下图展示了DeepSurfels的数据结构针对每个稀疏栅格(x, y, z)都有一个对应的面片来存储纹理信息，其中X，Y，Z也代表了DeepSurfels的栅格分辨率。

在有效表达数据后，本论文提出了一种递归方法，用于匹配每个纹理元素与对应的几何曲面，基于欧式距离的符号距离函数用于计算面片相对于最近几何曲面的位置和朝向。

首先，在每一个栅格中心提取出面元，随后利用先前计算好的符号函数值将面元移动到最临近的表面处，其朝向取决于符号函数在xyz方向上的梯度，并最大化地覆盖对应曲面。这些面片被分解成个非重叠面片，其分辨率变为。

上图显示了2D简化情况下几何拟合的过程，每一部分都基于SDF对曲面进行拟合。这一过程不断重复直到分辨率达到为1×1使得纹理元素位于曲面上。

在线外观融合工作流

在对数据进行有效表达和拟合后，这一研究提出了一种基于在线外观融合的数据流，增量式地将RGB数据融合到DeepSurfels中。在线外观融合的过程主要分为以下两个部分：外观融合与外观渲染。

外观融合工作流

如上图所示，外观融合工作流包含了融合模块与渲染模块。其中，融合模块在每一时间 t 将新的RGB测量融合进DeepSurfels中；而可差分的外观融合模块将表达的内容渲染到给定的视角下。白色圆代表了可差分操作，而矩形则代表了数据，圆角矩形则代表了训练模块。

其输入为相机参数内参 K 和外参 R ，RGB图像 I 和深度图 D 的主要流程包括可差分投影、融合网络、逆投影和外观渲染模块。其中可差分投影模块负责渲染超分辨特征图，以保证对于几何形状的稠密覆盖。

而输入图像经上采样后与超分辨特征图堆叠，并利用特征变换模块进行线性变换得到高维空间中的潜入表达，而后利用Blender网络来优化邻域的细粒度特征、减少DeepSurfels中的离散人工痕迹，最终输出更新后的特征。这一特征经逆投影后生成状态特征 S。而后外观渲染模块通过抽取 S 中压缩的内容，与先前的特征融合，通过渲染网络和特征解码得到RGB输出结果。

通过这一输出结果与输入的RGB图像，可计算出和重投影误差，作为训练的损失函数。这一自监督的模式使得模型不需要依赖大量的标注数据，让整套流程更具灵活性和适应性。

实验结果

为了评测模型对于形状和外观的表达能力，研究人员通过新视角合成任务来进行测评，并选取了PSNR和SSIM两个度量指标。

下图展示了这一算法在新视角下合成的图像，实验中使用了128³的稀疏栅格和三通道4×4的特征片元。可以看到，DeepSurfels可以更好地表达高频细节，同时还能估计出目标的几何形状。

对于室内的结构，该方法也能实现较好的新视角合成结果，而且细节呈现较为清晰，实验结果如下图所示。值得注意的是，DeepSurfels只在左侧的图像上训练，并在右侧图像推理，而NeRF则分别在两张图上都进行了优化。

对于没有见过的场景，这一方法也能很好地奏效，并恢复出更多高频细节。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

3Ｄ视觉工坊

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
三维形状和外观重建一次全搞定: DeepSurfels在线融合实现逼真重建

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达From:苏黎世联邦理工学院；编译: T.R近年来，基于学习的方法通过从RGB图像中直接学习几何和纹理映射来获取高质量的重建结果，但...
复制链接

扫一扫