使用端到端立体匹配网络进行单次 3D 形状测量，用于散斑投影轮廓测量

最新推荐文章于 2022-11-20 22:32:32 发布

Tom Hardy

最新推荐文章于 2022-11-20 22:32:32 发布

阅读量1.2k

点赞数 2

文章标签：大数据计算机视觉神经网络机器学习人工智能

本文链接：https://blog.csdn.net/qq_29462849/article/details/121918126

版权

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

标题：Single-shot 3D shape measurement using an end-to-end stereo matching network for speckle projection profilometry

期刊：Optics Express [2021]

年份：2021

这是南京理工大学左超老师课题组最新的深度学习+单目散斑结构光的最新工作，发表在Optics Express上，下面笔者对论文做了一个大致的翻译，供大家参考。

注：如果刚入门结构光的小白同学，可以报名我们工坊推出的结构光课程：

1.从零搭建一套结构光3D重建系统 [偏向实践]：https://mp.weixin.qq.com/s/dgc25DwLqJJlnq_d29qeZg

2.结构光系统教程[偏向理论]：https://mp.weixin.qq.com/s/67mmu2dKzJ3hNvKCjn_Q7A

摘要

散斑投影轮廓测量法(SPP)通过仅投影单一散斑模式来建立立体图像之间的全局对应关系，具有单镜头三维重建的优势。然而，SPP由于传统立体匹配算法的匹配精度较低，从根本上限制了其三维测量精度。在本研究中，我们提出了一种利用端到端立体声匹配网络的单镜头三维形状测量方法。为了建立高质量的SPP数据集，结合相移相测量和时间相位展开技术，通过相位匹配得到高精度的绝对相位图，生成精确的、高完整性的视差图。对于网络的体系结构，首先利用多尺度残差子网从散斑图像中同步提取具有1/4分辨率的紧凑特征张量，构建四维代价量。考虑到基于三维卷积的代价滤波计算代价较高，提出了一种轻量级的三维U-net网络来实现高效的四维网络，精度约为100um。

1 引言

基于结构光投影的光学三维测量已成为一种流行的非接触式三维形状测量技术[1]。它具有硬件配置简单、测量精度高、三维点云密度高等优点，是最重要的优点之一，技术前景广阔，广泛应用于工业检测和科学研究[2-5]。本质上，基于结构光的三维测量方法可以看作是立体视觉的一种改进形式，通过在系统配置[6]中引入额外的光源发生器（如投影仪）来实现。光源发生器将一系列特定编码的模式投射到被测量的场景[7]上。与基于立体视觉的方法相比，基于结构化光的三维测量方法可以很容易地克服弱纹理区域导致的匹配精度低的问题。

在基于结构光投影的三维形状测量方法中，两种常用的结构光图案是条纹图案和散斑图案。相应地，有两种主流方法：边缘投影轮廓测量(FPP)和散斑投影轮廓法(SPP)。在FPP中，投影仪将一系列的条纹图案投射到被测量的场景上。摄像机同步捕捉被测对象调制的边缘图像，然后利用傅里叶变换轮廓仪(FTP)和移位轮廓仪(PSP)[18]等各种相位检索技术进行处理，获取相位信息。然而，这些方法都采用了弧切函数，只能提供具有2π相跳跃的包裹相。因此，有必要进行相位展开，以消除相位的模糊性，并将包裹的相位转换为绝对相位[19-25]。为了解决这一问题，我们提出了几种复合移相方案(如双频PSP[26]、双频PSP[27]和2+2PSP[28])，可以解决不显著的相位模糊问题

与FPP不同，SPP中的投影仪在测量的场景上投射了一个散斑图案。用立体相机同步捕捉由被测量对象调制后的散斑图像，然后利用各种立体匹配技术进行处理，得到视差图。利用空间编码策略设计的投影散斑模式具有固有的全局唯一性，这使得基于spp的三维测量方法具有单镜头三维重建的优势。因此，散斑图案设计方法的关键思想是如何确保局部斑点相对于整个投影图案[31]是全局唯一的。这些投影模式的设计方法基于各种空间编码策略[7,32,33]可分为三类：基于非形式编码[34,35]的策略、基于DeBruijn序列的策略[36-38]和基于m阵列[39]的策略。在过去的几十年里，研究人员提出了许多针对斑点的设计方法。然而，由于测量对象具有复杂的反射特性和透视图之间的差异，该系统通过两个同步的高速摄像机捕获编码物体的图像，以每秒350帧/秒的速度对空间分离的物体进行高速、密集和精确的三维测量。这些所提出的SPP方法可以实现基于散斑投影的高性能三维测量，但无法从单一散斑图像中获得准确的三维数据。对于SPP，它仍然缺乏一种使用单一散斑模式的立体匹配算法，可以实现高鲁棒性和高精度的三维测量，以恢复复杂表面的细节。

与传统的立体匹配方法相比，近年来提出了许多针对立体视觉的深度学习方法，并取得了良好的立体匹配性能[45-52]。立体匹配通常有四步管道，包括匹配成本计算、成本聚合、视差计算和视差细化，而传统的立体匹配方法使用非学习技术执行所有四个步骤。现有的基于学习的立体匹配方法试图利用深度学习来实现这四个步骤中的一个或多个，以获得更好的匹配结果。莱村等人[45]首先采用Siamese网络进行块匹配，获得初始匹配成本，然后利用典型的立体匹配程序，包括基于sgm的成本聚合、视差计算和视差细化，以进一步改进匹配结果。罗等人[46]将不同大小的左右图像补丁输入cnn中计算初始匹配成本，将二值分类问题转化为多分类任务，实现高效立体匹配。目前，已经开发了一些端到端立体声匹配网络，可以预测整个视差图，而不进行后处理。肯德尔等人[49]提出通过结合参考图像的所有像素和视差范围内的所有候选像素的特征，生成尺寸为C×D×H×W（即特征×视差×高度×宽度）。通过一系列三维卷积层进行过滤。最终的视差图使用可微的软性最小值操作从滤波后的成本体积中回归，这允许它在不需要任何额外的后处理或正则化的情况下实现亚像素精度的匹配结果。后来，常等人[51]提出了一种金字塔立体匹配网络(PSMNet)，利用基于3DCNN的空间金字塔池和多沙漏网络，进一步提高了匹配精度。张等人[52]在现有的成本聚合子网中引入基于局部引导滤波的成本聚合子网，以获得更好的匹配精度和网络的泛化能力。

在这项工作中，我们提出了一种利用端到端立体匹配网络进行散斑投影轮廓测量的单镜头三维形状测量方法。在监督学习中，使用高质量的数据集，包括输入数据和标签真实值，对于基于学习的方法是非常重要的。KITTI是一个突出的立体数据集，它促进了立体视觉[53]中深度学习的发展。值得注意的是，KITTI非常具有挑战性，因为它的三维激光雷达获得的标签非常稀疏，精度很低。在我们的方法，不同于KITTI，通过结合12步PSP[18]和多频时间相位展开技术[22]，可以获得高完整性的高精度绝对相位图生成密集的视差图与亚像素精度的相位匹配，这将是我们的立体匹配网络的高质量的地面真相。对于我们提出的网络结构，首先利用多尺度残差子网从散斑图像中同步提取具有1/4分辨率的紧凑特征张量，用于构建四维代价量。考虑到使用三维卷积层的成本滤波操作计算成本昂贵，提出了一种轻量级的三维u网网络来实现高效的四维成本聚合，以实现更高的匹配性能。此外，由于SPP数据集中的视差图（作为真实标签）仅在前景中有有效值，因此我们的端到端网络中集成到一个简单快速的端到端网络中，以避免预测包括遮挡和背景在内的视差图中的无效像素，从而提高了研究文章对有效像素的匹配精度。该方法与传统的立体匹配方法相比，匹配精度显著提高了约50%。实验结果表明，该方法可以通过单一散斑模式实现快速、绝对的三维形状测量，测量精度约为100µm。

2 原理

在本节中，我们将提出一种使用端到端立体匹配网络进行散斑投影轮廓测量的单镜头三维形状测量方法。在我们的方法中，一个散斑模式和一系列的条纹模式需要由投影仪投影到测量的场景上，并由立体摄像机同步捕捉。首先对获得的散斑图像对进行外极性校正处理，然后直接输入所提出的端到端立体匹配网络，在没有背景的情况下获得相应的视差图。视差图通过高度视差映射转换为最终的三维结果，如图所示1.很明显，投影的散斑模式和端到端立体声匹配网络共同决定了该方法的实际三维测量性能。

图1 本文提出的利用端到端立体匹配网络进行散斑投影轮廓测量的单次三维形状测量方法

对于散斑模式，我们遵循了之前工作[31]中提出的简单有效的设计和评价方法。通过引入超极性整流和深度约束，立体匹配算法唯一需要做的就是在预定义的局部一维范围内搜索相应的像素，而不是传统的全局二维范围，这意味着我们优化的散斑模式设计方法只需要散斑模式中的局部斑点相对于局部一维投影空间是独一无二的。在此基础上，设计并评估了投影散斑模式，以帮助提高三维测量性能。

对于所提出的端到端立体匹配网络，有两个方面影响了其最终的立体匹配性能。首先，对于基于深度学习的网络方法，包括输入数据和标签真实值在内的数据集对有效训练立体匹配网络非常重要。在我们的方法中，利用一系列获得的边缘图像生成具有亚像素精度的密集视差图，作为SPP数据集的高质量标签值，这可能决定了训练网络在测量复杂曲面物体时的最高匹配精度和鲁棒性。在下一小节中，我们将详细讨论如何在FPP中使用相移方法和多频时间相位展开技术来构建一个高质量的SPP数据集。其次，对于我们提出的网络的结构，虽然存在大量基于学习的高性能立体匹配网络，但这些网络通常是在KITTI立体数据集上进行训练和验证，不能直接应用于SPP。KITTI是一个突出的立体数据集，它促进了立体视觉[53]中深度学习的发展。值得注意的是，KITTI非常具有挑战性，因为它的三维激光雷达获得的标签非常稀疏，精度很低。具体来说，KITTI是自动驾驶领域的一个数据集，其数据具有大规模、稀疏纹理的特性，其三维重建精度为毫米精度。相比之下，我们的立体匹配网络旨在通过与强散斑纹理信息的物体进行匹配，实现具有微米级精度的高精度和稳健的三维测量。提出的网络的具体结构将根据2.2节进行详细介绍。

2.1 利用FPP构建了高质量的SPP数据集

为了建立一个高质量的SPP数据集，利用边缘投影轮廓测量法(FPP)获得了高精度、密集的视差图作为地面标签。在一个常见的FPP系统中，FPP有三个主要的处理步骤：相位提取、相位展开和相位到高度的映射。在相位恢复过程中，基于正弦条纹的FPP方法通常采用频域[15]的傅里叶变换方法或时域[18]的相移方法来检索包裹的相位。傅里叶变换轮廓测量法(FTP)具有单镜头相位提取的优点，但也存在频谱重叠问题。这些方法通常会产生低质量的粗包装相，因此难以实现高精度的三维采集。与FTP不同，相移轮廓测量法(PSP)可以实现像素级的相位测量，精度不受环境光的影响，但需要投影至少三种条纹图案才能在理论上获得相位图。

本研究采用了偏移量为2π/12的标准12步移相条纹图案，因为它对环境照明和不同的表面特性非常稳健：

最后，基于相位信息实现相位匹配，从两个角度最小化绝对相位之间的差，获得整数像素精度的视差图：

通过相位匹配，高精度、高密度的视差图可以作为图中我们的高质量SPP数据集的基本真实值得到。

图2：使用FPP系统构建高质量SPP数据集的原理图

2.2 端到端的立体匹配网络

在本小节中，提出了一种用于解决SPP中立体匹配问题的端到端立体匹配网络，与最先进的立体匹配方法相比，大大提高了匹配精度。现有的基于高性能学习的立体匹配网络通常在KITTI立体数据集上进行训练和验证。在KITTI立体数据集中，数据具有大规模、稀疏纹理的特性，相应的三维重建结果只有毫米的精度。相比之下，基于我们的高质量SPP数据集，我们的立体匹配网络旨在使用散斑图像对来实现具有微米级精度的鲁棒三维测量。此外，对于我们的SPP数据集的地面标签，样本数据的视差图仅在前景中有有效值，如图2所示。因此，我们很难天真地利用这些现有的端到端网络[50-52]直接获得最终的视差图，但我们的网络集成了一个简单快速的显著性检测网络，以避免预测视差图中的视差图，包括遮挡和背景等无效像素。具体来说，立体匹配网络示意图如图3所示：

图3所提出的端到端立体声匹配网络的示意图。整个立体匹配网络由多尺度残差子网（作为共享特征提取子网）、四维成本量构建、三维卷积层成本聚合、视差回归和显著性检测子网组成。

在图3中、整个立体匹配网络由多尺度残差子网（作为共享特征提取子网）、四维成本量的构建、三维卷积层的成本聚合、视差回归和显著性检测子网组成。值得注意的是，在首先执行立体匹配之前，要进行外极性校正，将二维搜索问题简化为一维匹配问题[54]。然后，在匹配成本计算的特征提取中，与传统不同的直接利用像素的灰度信息或颜色值进行对应匹配的方法，我们的目的是计算后续匹配过程中每个像素的特征表示。具体来说，基于学习的方法通常同时对输入的立体图像进行特征提取，以获取丰富的特征信息，以构建四维代价量作为初始匹配代价。因此，初始匹配代价对应的初始匹配精度很大程度地依赖于提取的特征信息的质量。

针对特征提取子网络，提出了一种多尺度残差网络来对输入的立体图像对进行处理，以获得丰富的多尺度特征信息。在该子网络中，散斑图像首先通过二维卷积层和4个残差块进行处理，得到64个通道的特征张量。考虑到后续成本聚合中的高分辨率匹配成本将消耗大量的计算开销，并占用昂贵的GPU内存，因此有必要对特征张量执行1/4的降采样操作。值得注意的是，提取低分辨率的特征张量并不是为了牺牲昂贵的计算代价，而是为了保持特征张量更紧凑，实现高效的特征提取。然后，低分辨率特征张量连续经过6个残差块，进一步扩展输出张量的每个像素的接受域。至关重要的是，网络产生的每个特征张量的每个像素必须具有更大的接受域，这样网络在预测期间[55]就不会忽略任何重要的特征信息。然后引入多尺度池化层，对输入张量进行1/4、1/16、1/64、1/256的降采样，进一步压缩和提取张量的主要特征，降低计算复杂度，防止过拟合。对于这四种下采样路径，特征张量都由一个卷积层、一组残差块和一个由双线性插值实现的上采样层进行顺序处理。在收集了这6条路径的特征张量后，沿通道轴对特征组合进行连接层处理。最后，通过一个二维卷积层、两个残差块和一个无ReLU的二维卷积层对特征张量进行处理，得到具有1/4分辨率的32通道特征张量。

在下一阶段，为了构造四维代价体积，将左图像中每个像素的特征张量与右图像上极线上局部视差范围内的所有相应候选像素连接起来。维度H×W×D×F（即高度×宽度×差异×特征的初始四维成本体积）如图4所示:

其中left feature和right feature代表特征提取子网从两个角度输出的1/4分辨率的特征张量，其尺寸(H×W×F/2)为240×320×32，摄像机为480×640分辨率。[2Dmin，2Dmax]是我们的SPP系统的视差范围。对于分辨率为1/4的特征张量，初始的四维成本量是基于范围[Dmin，Dmax]来构建的。Di是在[Dmin，Dmax]范围内的一个候选差异。D为绝对差异范围(Dmax−Dmin+1)。

图4四维成本量的原理示意图。基于SPP系统的视差范围，结合左图像中每个像素的特征张量和右图像上极线上所有相应的候选像素，建立初始四维代价体积。

在成本聚合方面，将使用三维卷积层进一步优化初始的四维成本体积。虽然在特征提取过程中已经进行了一些下采样操作，但事实上，具有1/4分辨率的4D成本卷仍然占用了大量的GPU内存。因此，我们提出了一种轻量级的3du网网络来实现高效的4d成本聚合。首先，采用三组三维卷积层，实现成本滤波，并将4D成本体积降采样1/4。然后，利用连续转位点的三维层对成本量进行上采样，并结合快捷操作，实现残余聚合。根据残差操作的输出，使用三个3D卷积层获取具有单通道特征的4D成本体积，然后通过上采样层获得最终的全分辨率4D成本体积。

在[49]中引入了视差回归，基于具有单通道特征的最终四维代价体积来估计视差图。每个候选差异的概率Di，使用软最大运算计算预测成本量。预测的视差图差异性（x，y）是由每个候选视差二的归一化概率的加权和得到的：

传统的立体匹配网络直接计算预测的视差图与地面真相之间的损失进行训练。但对于在我们的SPP系统中构建的数据集，样本数据的视差图仅在前景中有有效的值。因此，有必要在我们现有的网络中集成一个额外的显著性检测网络。目前，基于学习的显著性检测方法以其高精度、高效、低成本等优点得到了广泛的研究。其中，全卷积网络(FCN)是最有前途的网络架构之一，在各种知名数据集[56]上都取得了显著的成果。但在SPP数据集上，被测场景的空间结构相对简单，且显著性对象具有较强的散斑纹理信息，一个基于简单网络结构的显著性检测网络也可以获得良好的检测结果。为了避免提取冗余特征，将特征提取子网输出的两个角度的特征张量通过串联层直接堆叠。然后，通过一组残差块、连续转位二维层、另一组残差块和卷积层，对特征张量进行顺序滤波和上采样，得到一个具有全分辨率的单通道特征张量。最后，利用s型函数实现显著性检测掩模掩码(x、y)的回归，可以在没有背景的情况下预测视差图：

在训练过程中，我们使用Adam来最小化联合损失，从而更新参数化网络的权值。联合损失包括视差映射的平滑L1损失和显著性掩模的二进制交叉熵损失：

为了验证显著性检测网络的实际影响，无/与显著性检测网络的三维重建结果的比较如图5所示。如图中所示。5.我们没有显著性检测网络的测量结果在背景下存在严重的不匹配，这将会影响网络在训练过程中的收敛性，并降低网络的实际性能。因此，显著性检测网络是我们方法中一个附加但必要的模块，隐式地提高了有效像素的匹配精度。

图5 与无显著性检测网络的三维重建结果的比较。(a)是没有显著性检测网络的三维重建结果。利用显著性检测网络进行(b)的三维重建结果。(c)真实标签。

3 实验

为了验证该方法的实际三维测量性能，我们建立了一个具有较宽基线的通用的基于立体视觉的SPP系统，如图所示。1、由两个单色相机(BasleracA640-750um，分辨率为640×480)和一个DLP投影仪(闪电破解4500，分辨率为912×1140Pro)组成。由于立体相机之间的基线约为270mm，我们系统的视差约束应适当设置为-100至59像素，以测量深度范围为−100mm至100mm的物体。测量系统与待测对象之间的距离约为900mm。此外，基于我们之前的工作[31]，我们还设计和评估了投影的散斑模式，以获得最佳的三维测量性能。

在我们的实验中，我们收集了包含1200个不同场景的数据集，它们由随机的30个简单和复杂的物体组成。整个数据集有1200对图像对，分别分为800对图像对用于训练，200对图像对用于验证，200对图像对用于测试。在训练过程中，为了监控神经网络中他们从未见过的样本的准确性，这些训练、验证和测试数据集中的场景是相互分开的。此外，为了实现高鲁棒性和高精度的立体匹配，所提出的立体匹配网络在训练过程中一次只能处理一对立体图像，占用约23GB的图形存储器。训练期设为200轮，大约需要5天。该网络的视差预测需要0.95秒。

3.1 端到端的立体匹配网络

首先进行了比较实验，揭示了该方法与两种传统方法(ZNCC[57]和SGM_Census[41,42])和两种基于学习的方法(在我们之前的工作[55]中提出的Luo的[46]和BM_DL方法)相比的高性能。对于单次拍摄的SPP来说，测量具有边缘、复杂或不连续表面的物体是一项具有挑战性的任务。为了验证这些方法扫描这些具有挑战性的表面，测量了两个不同的物体，包括大卫模型和伏尔泰雕像。通过ZNCC、SGM_Census、Luo的方法、BM_DL和我们的方法得到的相应的三维重建结果如图所示。6个(a)和(c)。

图6 比较了使用不同方法进行的三维重建结果。(a)David模型的三维重建结果，(b)David模型的匹配误差，(c)伏尔泰雕像的三维重建结果，(d)伏尔泰雕像的匹配误差。

ZNCC准则在实际应用中非常常见，因为它对局部匹配块强度的偏移和尺度变化不敏感，与其他准则[57]相比，它提供了最准确和可靠的位移估计。在ZNCC中，通过块匹配计算匹配成本，获得整数像素视差图，然后通过5点二次曲线拟合模型[14]进行细化，得到亚像素视差图。为了提高ZNCC的匹配性能，经过详尽的经验搜索，将块匹配中的块大小确定为19×19。然而，块匹配的基本假设是匹配窗口中的所有像素都有相似的差异。因此，这一假设不适用于视差不连续，导致物体边界和薄结构中边缘育肥问题[58,59]对应的三维结果，如图6所示.

与ZNCC相比，SGM_Census可以提供密集的三维测量结果。在SGM_Census中，采用相同块大小为19×19的人口普查变换计算初始匹配成本，然后使用一系列后处理操作获得三维结果，包括8条路径的1维成本聚合、赢家通吃(WTA)和二次曲线拟合[41]。然而，SGM_Census通过平滑视差图来避免不匹配，以实现可靠的立体匹配，但以牺牲三维测量精度为代价，如图6所示利用ZNCC和SGM_Census可以发现存在一些明显的错配区域和低精度的三维测量结果，证明了这些非参数匹配方法在基线较宽的SPP系统上难以提供可靠、高精度的匹配结果。

与这些传统方法不同的是，我们还实现了两种基于学习的方法(Luo的方法和BM_DL)来进行比较。在这两种方法中，利用网络实现了匹配成本计算。在罗的方法中，将一对块数据（以左图中要匹配的点为中心，右图中所有对应的候选点）同时输入网络，在预定义的局部视差范围内搜索正确的候选点。为了实现立体匹配的高性能，采用了基于暹罗结构的块匹配网络，以产生更好的初始匹配成本。与SGM_Census类似，使用一系列相同的后处理操作来得到三维结果，如图6所示。此外，我们在之前的工作中提出的BM_DL是罗的方法的一个增强版本。在BM_DL的块匹配网络中，在网络的头部堆叠了一些额外但必要的卷积层和剩余块，以进一步提高特征提取的能力。此外，我们还利用具有共享权值的全连通层来代替原来的内积，从而提高了网络相似度度量的精度。它在图中很容易找到。6与SGM_Census和Luo的方法相比，BM_DL可以输出更准确、更密集的视差结果。然而，BM_DL所实现的测量精度并不能满足高精度三维测量应用的要求。如何利用端到端网络来实现更高效的三维匹配是值得研究的。

显然，在图6中所提出的端到端立体声匹配网络通过单次测量得到了高质量的三维重建。与使用12步移相条纹模式的地面真相进行对比，如图6所示。由于立体匹配的局部平滑性的固有特性，在我们的三维重建结果中存在一些具有轻微失真和表面模糊的局部细节。但是，我们的方法可以获得更接近地面真实值的高精度三维结果。基于这些实验结果，我们很容易得出结论，我们的匹配网络可以实现在几种SPP方法中性能最好的三维测量。

此外，与地面真实值相比，不同方法的匹配误差如图所示。6(b)和6(d)及其相应的定量分析结果见表1。为了保证分析结果的客观性，我们利用这些方法得到的视差结果与地面真实值之间的差异来作出准确的判断。点的数是地面值中有效点的和。缺失比是指地面真相中有效点，而这些视差结果中无效点的比例。对于ZNCC、SGM_Census、Luo的方法和BM_DL，采用4连通图像分割方法对视差图进行处理，以识别和去除像素较少[41]的片段。我们的方法利用显著性检测子网生成的掩模，直接去除视差图中的包括遮挡和背景在内的无效像素。然后，通过计算地面真实值的绝对视差差大于1像素的有效点的数量，很容易得到误差比。将所有剩余的有效点视为正确的点，然后根据不同的视差精度进一步细分，包括1像素、0.5像素和0.2像素。

它可以从表1可以看出，我们方法的缺失率和误差比均低于2%和6%。该方法的正确率高于93%，且大部分像素的视差精度均低于0.5像素。结果表明，与传统的立体匹配方法相比，该方法的匹配精度显著提高了约50%。该方法对复杂曲面和具有几何不连续性的物体具有具有较高的正确性和较高的完整性的鲁棒性三维形状测量。

表格1 不同方法的定性结果

3.2 精度分析

此外，为了利用所提出的端到端立体声匹配网络来定量评估我们的系统的精度，我们测量了一个陶瓷平面和一对直径为50.8mm的标准陶瓷球体。图7(a)和图7(b)显示了相应的三维重建结果。然后，根据得到的三维重建数据，进行平面拟合，得到作为地面真相的理想平面。计算测量平面与理想平面之差，得到三维测量误差，如图所示。7(c)。这些差异的定量直方图如图所示。7(f)。我们很容易发现，主要的测量误差都小于200µm，RMS分别为101.65µm。同样地，对于一对标准陶瓷球体的三维测量，如图所示。7(b)，采用球体拟合得到实际测量误差，如图所示。7(d)和7(e)。三维测量精度的均方根约为100µm，如图所示。7(g)和7(h)。

图7 用我们的方法测量一个陶瓷平面和一对标准陶瓷球的精确分析。(a)陶瓷平面的三维重建结果，(b)一对标准陶瓷球的三维重建结果，(c)-(e)相应的分布的测量误差(a)-(b)，和(f)-(h)相应的定量直方图(a)-(b)的测量误差

另外，不同方法的精度分析结果见表2。对于陶瓷平面，使用ZNCC获得的测量误差小于200µm，RMS为103.04µm。这一结果的原因是基于块匹配的基本假设，所有像素存在相似的差异。然而，这种假设并不适用于测量带有边缘、复杂或不连续面的对象。对于标准的陶瓷球体，ZNCC只能生成粗糙的三维测量结果，匹配误差很多，如图8所示。注意，通过球拟合，实际测量误差大于1mm。在去除离群值后，提高了测量精度，但是显著的仍大于300µm。使用ZNCC的陶瓷球半径误差大于表2中的1mm。相比之下，SGM_Census提供了测量平面和球体的测量结果。同样，Luo的方法和BM_DL也可以实现对测量平面和球体的鲁棒性和更精确的测量。然而，这些方法都使用相同的后处理操作，通过平滑视差图来实现可靠的立体匹配，但代价是匹配精度。与这些方法不同的是，无论是测量平面还是球，还是计算均方根或半径误差，我们的方法可以实现鲁棒的三维形状测量，精度最好。结果表明，该方法可以显著提高SPP的匹配精度，并获得高精度的三维重建结果。

图8 使用ZNCC测量一对标准陶瓷球体的精密度分析。(a)陶瓷球的三维重建结果，(b)相应的测量误差的分布(a)，(c)相应的分布测量误差(a)异常值去除后，(d)陶瓷球的三维重建结果B，(e)(d)的测量误差的相应分布，和(f)相应的分布测量误差(d)异常值去除后。

表2 不同方法的精度分析结果

3.3 快速3D表面成像

图9 一个动态场景的三维重建结果：一个移动的David模型（可视化1）。(a)-(c)David模型沿Z轴移动，(d)-(f)David模型围绕Y轴旋转。

最后，我们的系统被用于记录一个动态的快速测量三维形状的场景：一个移动的David模型，如图9所示本实验将相机的曝光时间设置为39.2ms，以25Hz的速度捕获散斑图像，实现25fps的三维重建。图9显示了不同时间点的彩色编码的三维重建结果。在整个动态测量过程中，David模型首先沿着Z轴向前移动，并在2.8秒时到达预定义的测量空间的边界。然后，David模型沿着5.76秒的Z轴反向移动到预定义的测量空间的另一个边界。此外，David模型返回到初始位置，并开始围绕Y轴旋转。最后，它将在15.8秒内再次回到原点位置。整个三维测量结果可参考可视化1。在整个测量过程中，David模型的三维表面得到了正确的、高质量的重构，验证了该方法在高速下进行高完整性的绝对三维形状测量的可靠性。

4 总结

综上所述，我们提出了一种基于普通基于立体视觉的SPP系统的端到端立体匹配网络的单镜头三维形状测量方法。为了有效地训练立体匹配网络，首先在FPP中结合相位轮廓测量(PSP)和时间相位展开技术，建立了高质量的SPP数据集。利用FPP获得的高精度绝对相位图，通过相位匹配生成了作为数据集的地面真实度的准确、密集的视差图。对于该网络的体系结构，该网络首先利用多尺度残差子网从散斑图像中同步提取分辨率为1/4的紧凑特征张量，以构建四维代价量。虽然在特征提取过程中已经进行了一些下采样操作，但事实上，具有1/4分辨率的4D成本卷仍然占用了大量的GPU内存。因此，提出了一种轻量级的三维u-网网络来实现高效的四维成本聚合，以实现更高的匹配性能。考虑到视差图（地面真相）SPP数据集的有效值只有在前景，提出了一个简单和快速的显著性检测网络和集成到我们的网络，以避免增强无效像素的视差图包括遮挡和背景，从而隐式地提高有效像素的匹配精度。对不同方法的实验比较表明，与传统方法相比，该方法对复杂曲面的物体具有较高的鲁棒性和三维形状测量。定量分析结果再次表明，与传统的立体匹配方法相比，该方法的匹配精度显著提高了约50%。精度分析的实验结果表明，该方法仅通过单一散斑模式就能实现精度约为100µm的绝对三维形状测量。动态测量实验验证了该方法的成功性，因为它能够在25帧每秒的复杂场景中有效地实现快速、准确的三维形状测量。

最后，该方法还有几个方面有待进一步改进。首先，由于所提出的网络中成本聚合存在许多昂贵的三维卷积，初始成本体积提前1/4降采样，这无疑大大降低了立体声匹配的精度。因此，如何实现更有效的成本聚合仍然是一个有待解决的问题。其次，我们很容易理解，投影多个散斑图像可以提高三维测量的精度，因为可以利用更多的约束条件来完全保证被测场景的全局唯一性。如何通过同时输入多个散斑图像来提高立体匹配网络的测量精度，是另一个有待进一步研究的有趣方向。第三，提出网络需要0.95秒，比运行在GPU上的大多数现有算法要慢，应考虑如何实现快速的立体声匹配。可以发现，该网络中的成本聚合占了总运行时间的大部分。同样，成本聚合也需要进一步优化子网，以提高立体声匹配的精度，减少运行时间。最后，与传统的非学习方法不同的是，学习方法对于测量具有复杂反射特征或高反射率的不同物体的泛化能力有待进一步研究和讨论，从而实现更可靠的三维形状测量。基于此分析，我们将探索更多的其他方法来设计一个具有更高性能的单镜头SPP系统。

5 参考文献

1. S. S. Gorthi and P. Rastogi, “Fringe projection techniques: whither we are?” Opt. Laser Eng. 48(2), 133–140 (2010).

2. S. Feng, L. Zhang, C. Zuo, T. Tao, Q. Chen, and G. Gu, “High dynamic range 3d measurements with fringe projection

profilometry: a review,” Meas. Sci. Technol. 29(12), 122001 (2018).

3. Z. Zhang, “Review of single-shot 3d shape measurement by phase calculation-based fringe projection techniques,”

Opt. Laser Eng. 50(8), 1097–1106 (2012).

4. W. Yin, S. Feng, T. Tao, L. Huang, S. Zhang, Q. Chen, and C. Zuo, “Calibration method for panoramic 3d shape

measurement with plane mirrors,” Opt. Express 27(25), 36538–36550 (2019).

5. Q. Zhang and X. Su, “High-speed optical measurement for the drumhead vibration,” Opt. Express 13(8), 3110–3116

(2005).

6. Z. Zhang, S. Huang, S. Meng, F. Gao, and X. Jiang, “A simple, flexible and automatic 3d calibration method for a

phase calculation-based fringe projection imaging system,” Opt. Express 21(10), 12218–12227 (2013).

7. J. Salvi, J. Pages, and J. Batlle, “Pattern codification strategies in structured light systems,” Pattern Recognition 37(4),

827–849 (2004).

8. S. Zhang, “High-speed 3d shape measurement with structured light methods: A review,” Opt. Laser Eng. 106,

119–131 (2018).

9. C. Zuo, T. Tao, S. Feng, L. Huang, A. Asundi, and Q. Chen, “Micro fourier transform profilometry (µftp): 3d shape

measurement at 10, 000 frames per second,” Opt. Laser Eng. 102, 70–91 (2018).

10. S. Zhang, “Absolute phase retrieval methods for digital fringe projection profilometry: A review,” Opt. Laser Eng.

107, 28–37 (2018).

11. W. Yin, C. Zuo, S. Feng, T. Tao, Y. Hu, L. Huang, J. Ma, and Q. Chen, “High-speed three-dimensional shape

measurement using geometry-constraint-based number-theoretical phase unwrapping,” Opt. Laser Eng. 115, 21–31

(2019).

12. M. Schaffer, M. Grosse, B. Harendt, and R. Kowarschik, “High-speed three-dimensional shape measurements of

objects with laser speckles and acousto-optical deflection,” Opt. Lett. 36(16), 3097–3099 (2011).

13. M. Schaffer, M. Grosse, and R. Kowarschik, “High-speed pattern projection for three-dimensional shape measurement

using laser speckles,” Appl. Opt. 49(18), 3622–3629 (2010).

14. P. Zhou, J. Zhu, and H. Jing, “Optical 3-d surface reconstruction with color binary speckle pattern encoding,” Opt.

Express 26(3), 3452–3465 (2018).

15. X. Su and W. Chen, “Fourier transform profilometry: a review,” Opt. Laser Eng. 35(5), 263–284 (2001).

16. Q. Kemao, “Two-dimensional windowed fourier transform for fringe pattern analysis: principles, applications and

implementations,” Opt. Laser Eng. 45(2), 304–317 (2007).

17. S. Feng, Q. Chen, G. Gu, T. Tao, L. Zhang, Y. Hu, W. Yin, and C. Zuo, “Fringe pattern analysis using deep learning,”

Adv. Photonics 1(2), 025001 (2019).

18. C. Zuo, S. Feng, L. Huang, T. Tao, W. Yin, and Q. Chen, “Phase shifting algorithms for fringe projection profilometry:

A review,” Opt. Laser Eng. 109, 23–59 (2018).

19. X. Su and W. Chen, “Reliability-guided phase unwrapping algorithm: a review,” Opt. Laser Eng. 42(3), 245–261

(2004).

20. M. Zhao, L. Huang, Q. Zhang, X. Su, A. Asundi, and Q. Kemao, “Quality-guided phase unwrapping technique:

comparison of quality maps and guiding strategies,” Appl. Opt. 50(33), 6214–6224 (2011).

21. Y. Wang and S. Zhang, “Novel phase-coding method for absolute phase retrieval,” Opt. Lett. 37(11), 2067–2069

(2012).

22. C. Zuo, L. Huang, M. Zhang, Q. Chen, and A. Asundi, “Temporal phase unwrapping algorithms for fringe projection

profilometry: A comparative review,” Opt. Laser Eng. 85, 84–103 (2016).

23. K. Zhong, Z. Li, Y. Shi, C. Wang, and Y. Lei, “Fast phase measurement profilometry for arbitrary shape objects

without phase unwrapping,” Opt. Laser Eng. 51(11), 1213–1222 (2013).

24. X. Liu, Y. Yang, Q. Tang, Z. Cai, X. Peng, M. Liu, and Q. Li, “A method for fast 3d fringe projection measurement

without phase unwrapping,” in Sixth International Conference on Optical and Photonic Engineering (icOPEN 2018),

vol. 10827 (International Society for Optics and Photonics, 2018), p. 1082713.

25. W. Yin, Q. Chen, S. Feng, T. Tao, L. Huang, M. Trusiak, A. Asundi, and C. Zuo, “Temporal phase unwrapping using

deep learning,” Sci. Rep. 9(1), 20175 (2019).

26. K. Liu, Y. Wang, D. L. Lau, Q. Hao, and L. G. Hassebrook, “Dual-frequency pattern scheme for high-speed 3-d

shape measurement,” Opt. Express 18(5), 5229–5244 (2010).

27. C. Zuo, Q. Chen, G. Gu, S. Feng, and F. Feng, “High-speed three-dimensional profilometry for multiple objects with

complex shapes,” Opt. Express 20(17), 19493–19510 (2012).

28. C. Zuo, Q. Chen, G. Gu, S. Feng, F. Feng, R. Li, and G. Shen, “High-speed three-dimensional shape measurement

for dynamic scenes using bi-frequency tripolar pulse-width-modulation fringe projection,” Opt. Laser Eng. 51(8),

953–960 (2013).

29. X. Su and Q. Zhang, “Dynamic 3-d shape measurement method: a review,” Opt. Laser Eng. 48(2), 191–204 (2010).

30. S. Feng, C. Zuo, T. Tao, Y. Hu, M. Zhang, Q. Chen, and G. Gu, “Robust dynamic 3-d measurements with

motion-compensated phase-shifting profilometry,” Opt. Laser Eng. 103, 127–138 (2018).

31. W. Yin, S. Feng, T. Tao, L. Huang, M. Trusiak, Q. Chen, and C. Zuo, “High-speed 3d shape measurement using the

optimized composite fringe patterns and stereo-assisted structured light system,” Opt. Express 27(3), 2411–2431

(2019).

32. B. Pan, Z. Lu, and H. Xie, “Mean intensity gradient: an effective global parameter for quality assessment of the

speckle patterns used in digital image correlation,” Opt. Laser Eng. 48(4), 469–477 (2010).

33. Z. Chen, X. Shao, X. Xu, and X. He, “Optimized digital speckle patterns for digital image correlation by consideration

of both accuracy and efficiency,” Appl. Opt. 57(4), 884–893 (2018).

34. M. Ito and A. Ishii, “A three-level checkerboard pattern (tcp) projection method for curved surface measurement,”

Pattern Recognit. 28(1), 27–40 (1995).

35. M. Maruyama and S. Abe, “Range sensing by projecting multiple slits with random cuts,” IEEE Trans. Pattern Anal.

Machine Intell. 15(6), 647–651 (1993).

36. K. L. Boyer and A. C. Kak, “Color-encoded structured light for rapid active ranging,” IEEE Transactions on Pattern

Analysis Mach. Intell. pp. 14–28 (1987).

37. L. Zhang, B. Curless, and S. M. Seitz, “Rapid shape acquisition using color structured light and multi-pass dynamic

programming,” in First International Symposium on 3D Data Processing Visualization and Transmission, (IEEE,

2002), pp. 24–36.

38. J. Pagès, J. Salvi, C. Collewet, and J. Forest, “Optimised de bruijn patterns for one-shot shape acquisition,” Image

Vis. Comput. 23(8), 707–720 (2005).

39. H. Morita, K. Yajima, and S. Sakata, “Reconstruction of surfaces of 3-d objects by m-array pattern projection

method,” in 1988 IEEE Conference on International Conference on Computer Vision, (IEEE, 1988), pp. 468–473.

40. S. Heist, P. Dietrich, M. Landmann, P. Kühmstedt, G. Notni, and A. Tünnermann, “Gobo projection for 3d

measurements at highest frame rates: a performance analysis,” Light: Sci. Appl. 7(1), 71 (2018).

41. H. Hirschmuller, “Stereo processing by semiglobal matching and mutual information,” IEEE Trans. Pattern Anal.

Mach. Intell. 30(2), 328–341 (2008).

42. H. Hirschmuller and D. Scharstein, “Evaluation of stereo matching costs on images with radiometric differences,”

IEEE Trans. Pattern Anal. Mach. Intell. 31(9), 1582–1599 (2009).

43. F. Gu, Z. Song, and Z. Zhao, “Single-shot structured light sensor for 3d dense and dynamic reconstruction,” Sensors

20(4), 1094 (2020).

44. A. Geiger, M. Roser, and R. Urtasun, “Efficient large-scale stereo matching,” in Asian conference on computer vision,

(Springer, 2010), pp. 25–38.

45. J. Zbontar and Y. LeCun, “Computing the stereo matching cost with a convolutional neural network,” in 2015 IEEE

Conference on Computer Vision and Pattern Recognition, (IEEE, 2015), pp. 1592–1599.

46. W. Luo, A. G. Schwing, and R. Urtasun, “Efficient deep learning for stereo matching,” in 2016 IEEE Conference on

Computer Vision and Pattern Recognition, (IEEE, 2016), pp. 5695–5703.

47. J. Pang, W. Sun, J. S. Ren, C. Yang, and Q. Yan, “Cascade residual learning: A two-stage convolutional neural

network for stereo matching,” in 2017 IEEE Conference on International Conference on Computer Vision Workshops,

(IEEE, 2017), pp. 887–895.

48. N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox, “A large dataset to train convolutional

networks for disparity, optical flow, and scene flow estimation,” in 2016 IEEE Conference on Computer Vision and

Pattern Recognition, (IEEE, 2016), pp. 4040–4048.

49. A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry, R. Kennedy, A. Bachrach, and A. Bry, “End-to-end learning

of geometry and context for deep stereo regression,” in 2017 IEEE Conference on International Conference on

Computer Vision, (IEEE, 2017), pp. 66–75.

50. S. Khamis, S. Fanello, C. Rhemann, A. Kowdle, J. Valentin, and S. Izadi, “Stereonet: Guided hierarchical refinement

for real-time edge-aware depth prediction,” in 2018 IEEE Conference on European Conference on Computer Vision

(ECCV), (IEEE, 2018), pp. 573–590.

51. J.-R. Chang and Y.-S. Chen, “Pyramid stereo matching network,” in 2018 IEEE Conference on Computer Vision and

Pattern Recognition, (IEEE, 2018), pp. 5410–5418.

52. F. Zhang, V. Prisacariu, R. Yang, and P. H. Torr, “Ga-net: Guided aggregation net for end-to-end stereo matching,” in

2019 IEEE Conference on Computer Vision and Pattern Recognition, (IEEE, 2019), pp. 185–194.

53. A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the kitti vision benchmark suite,” in

2012 IEEE Conference on Computer Vision and Pattern Recognition, (IEEE, 2012), pp. 3354–3361.

54. R. Hartley and A. Zisserman, Multiple view geometry in computer vision (Cambridge University, 2003).

55. W. Yin, J. Zhong, S. Feng, T. Tao, J. Han, L. Huang, Q. Chen, and C. Zuo, “Composite deep learning framework for

absolute 3d shape measurement based on single fringe phase retrieval and speckle correlation,” JPhysPhotonics 2,

045009 (2020).

56. A. Borji, M.-M. Cheng, Q. Hou, H. Jiang, and J. Li, “Salient object detection: A survey,” Comp. Visual Media 5(2),

117–150 (2019).

57. B. Pan, H. Xie, and Z. Wang, “Equivalence of digital image correlation criteria for pattern matching,” Appl. Opt.

49(28), 5501–5509 (2010).

58. D. Min, J. Lu, and M. N. Do, “A revisit to cost aggregation in stereo matching: How far can we reduce its

computational redundancy?” in 2011 International Conference on Computer Vision, (IEEE, 2011), pp. 1567–1574.

59. D. Scharstein and R. Szeliski, “A taxonomy and evaluation of dense two-frame stereo correspondence algorithms,”

Int. J. Comput. Vis. 47(1/3), 7–42 (2002).

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

原创征稿

初衷
3D视觉工坊是基于优质原创文章的自媒体平台，创始人和合伙人致力于发布3D视觉领域最干货的文章，然而少数人的力量毕竟有限，知识盲区和领域漏洞依然存在。为了能够更好地展示领域知识，现向全体粉丝以及阅读者征稿，如果您的文章是3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、硬件选型、求职分享等方向，欢迎砸稿过来~文章内容可以为paper reading、资源总结、项目实战总结等形式，公众号将会对每一个投稿者提供相应的稿费，我们支持知识有价！

投稿方式

邮箱：vision3d@yeah.net 或者加下方的小助理微信，另请注明原创投稿。