【论文简述】OcclusionFusion: Occlusion-aware Motion Estimationfor Real-time Dynamic 3D Recons(CVPR 2022)

一、论文简述

1. 第一作者:Wenbin Lin

2. 发表年份:2022

3. 发表期刊:CVPR

4. 关键词:单目、3D重建、实时性、遮挡、LSTM

5. 探索动机:在基于单一视图的解决方案中,在线方法和离线方法之间存在显著的质量差距。在在线方面,现有的方法采用迭代几何拟合、稀疏图像特征匹配或光度约束来估计目标运动。然而,这些实时技术不能给出非常可靠的时间对应,因此运动估计的准确性是有限的。随着误差的累积,这些技术往往无法跟踪长序列或具有挑战性的运动。另一方面,离线方法可以在不考虑计算复杂度的情况下建立更精确的时间对应关系,从而得到更好的重建结果。

在基于单视图的三维动态重建中,遮挡是一个关键障碍,因为遮挡区域需要在没有运动观测的情况下进行重建。另一方面,遮挡区域不会任意移动。可见区域的运动和历史运动信息提供了强大的先验知识来约束被遮挡区域的运动估计。

6. 工作目标:结合在线和离线的优势,并且解决遮挡区域。

7. 核心思想:提出了遮挡融合,填补了在线和离线方法之间的质量差距,具有实时性能,甚至与离线方法相比具有最先进的准确性。这是通过更好和更有效地探索空间和时间的运动先验来实现的。在此基础上,提出训练神经网络,利用可见区域的运动以及历史信息来估计包括被遮挡表面在内的整个物体的全3D运动。通过在连续帧之间获得完整的物体运动,既不需要像DeepDe- form那样的完全对应计算,也不需要像Bozic等人那样的多帧之间的长距离对应计算。这两种方法都涉及到沉重的计算成本,从而阻碍了实时性能。

  1. We proposed a robust real-time dynamic 3D reconstruction system with a light-weight graph neural network for full 3D motion estimation. 
  2. The graph neural network involves LSTM structure to leverage both the spatial and temporal information to predict the full object motion accurately and efficiently.
  3. Per node motion confidence is estimated by modeling the predicted motion using a Gaussian distribution, which gives more information for the reconstruction system to achieve high robustness.

8. 实验结果:

Various results including the one on public benchmark show that our real-time system outperforms the state-of-the-art offline methods.

9.论文下载:

https://wenbinlin.github.io/OcclusionFusion

https://openaccess.thecvf.com/content/CVPR2022/papers/Lin_OcclusionFusion_Occlusion-Aware_Motion_Estimation_for_Real-Time_Dynamic_3D_Reconstruction_CVPR_2022_paper.pdf

二、实现过程

1. 方法

构建了一个基于RGB-D的单视图动态三维重建系统,该系统能够逐帧重建体模型和求解非刚体表面运动。输出运动通过节点图的变形参数化。为了处理遮挡节点的运动跟踪,设计了一个可感知遮挡的运动估计网络。该网络基于时空运动观测,推导出整个节点图的运动和运动置信度。完整的节点运动估计流程如下图所示。在给定一幅输入RGB-D图像和当前重建模型的节点图的情况下,首先用一个神经网络估计前一幅图像到当前输入图像的二维光流。然后,利用二维光流图像和深度图像,计算出可见节点的三维运动。将可见节点的三维运动和完整的节点图都输入到图神经网络中。同时,引入LSTM模块来整合节点的历史运动,将时间信息传递到图神经网络中。最后,图神经网络以每个节点的置信度预测全节点运动。利用预测的节点运动和置信度,进一步优化图节点的变形参数,构建鲁棒非刚性重构系统。

全节点运动估计的管道。给定帧t和t+1处的输入RGB-D图像以及帧t处的完整节点图,首先使用神经网络估计输入图像对之间的2D光流。然后,结合二维光流和深度图像计算可见节点的三维运动。图神经网络使用可见节点的运动和完整的节点图作为输入。与此同时,图神经网络通过LSTM模块来整合历史节点运动来估计完整节点运动和每个节点置信度。

2. 遮挡感知的运动估计网络

使用基于图的表示,用稀疏图节点来参数化物体运动。在目标曲面上对图节点进行均匀采样。物体表面上的点是由图节点的形变驱动的。然而,在单视角RGB-D相机中,当出现遮挡时,图节点的运动是很难解决的。为了解决这个问题,提出了一个使用图神经网络的遮挡感知运动估计器。

网络架构。图神经网络根据输入节点图的节点连接性在节点之间进行消息传递。如上图所示,图神经网络的目标是用每个节点的置信度预测整个节点图的运动。网络的输入包含完整的图结构、可见节点的运动和历史帧的运动。

具体来说,输入节点特征包括节点的3D位置和节点可见时的3D运动。对于被遮挡的节点,将它们的运动赋值为零。此外,添加一个额外的维度来表示节点的可见性。可见的值为1,遮挡的值为0。此外,根据可见节点的运动,通过在SE(3)中计算一个刚体变换,从总运动中提取刚体运动。因此,神经网络只需要预测非刚体运动。

由于单帧的观测强度不足以约束被遮挡运动,将历史运动和当前帧的观测相结合来计算图节点的特征。为了整合历史运动,通过引入LSTM模块来维护每个节点的运动状态。对于每个节点,LSTM使用估计的历史运动和置信度来预测节点在当前帧的运动和置信度。

为了对3D节点运动进行了有置信度的建模,采用对角协方差为N(µ,σ)的高斯分布来表示每个节点的运动,其中µ为预测的3D运动,σ为反映置信度的标准差。

对于节点间的消息传递,基于输入节点图,构造了一个多尺度图金字塔{G1,G2, G3,G4}。该网络,包含节点特征下采样、上采样,即同一层次金字塔之间的跳跃连接,如U-Net。基本的图卷积模块是图transformer。此外,在图卷积模块中增加了一个残差连接。

网络训练。为了监督网络训练,用预测的高斯分布对目标节点运动进行建模,并使用标准的对数似然损失:

其中Θlstm和Θgraph是LSTM模块和图神经网络的参数,µi和σi是网络的最终输出,N是节点图中的节点数,yi 是第i个节点的gt运动。

对于LSTM模块的时域运动编码,对LSTM模块的输出施加另一个对数似然损失:

其中µi′和σi′为LSTM模块的输出。此外,发现截断σi的最小值和σi′到0.1会带来更好的性能。

总损失是上述两项的加权组合:

3. 置信度引导非刚性重建

对于非刚性RGB-D重建,遵循经典的体管道,使用截断符号距离场(TSDF)来存储标准模型和运动场来warp标准模型,使其与输入图像序列对齐。

我们使用基于图的表示来参数化非刚体运动。运动场W可以用变形图G = {[pi,Ti},其中pi∈ R3是第i个节点的位置,是Ti∈SE(3)是第i个节点的变换。运动场可以通过相邻节点transform的凸组合来计算。

给定重构模型Mt−1和输入RGB-D图像对{Ct−1,Dt−1}和{Ct, Dt},优化如下能量来求解Wt。

对于深度项Edepth,在深度图像Dt和warp的模型之间采用密集点对面对齐:

v是标准模型M上的一个顶点,v′是由Wt给出的warp顶点。ut是一个从深度图像Dt投影出来的3D点,其法线表示为nut 。P是顶点对集。我们首先在t−1处将warp后的模型Mt−1渲染到相机视图,并得到所有可见顶点的投影2D坐标。设Π为投影函数,对于Π(v'),利用计算得到的二维光流找到Π(ut)所在的对应像素。

基于神经网络的输出运动和置信度,将运动场约束为接近网络的预测,构造运动能量项如下:

其中µi表示神经网络在第i个节点预测的运动,wi是通过µi和σi计算的权重:

考虑到连续图像之间的密集对应关系,二维项将warp后的顶点的投影约束为与二维光流的对应关系一致:

Ereg 是尽可能刚性的正则化, 

其中Nj表示第J节点的相邻节点。

在解出运动场Wt之后,更新规范后的TSDF体。如果存在超出当前节点图覆盖范围的区域,则将插入新的节点。

4. 实施细节

多尺度图金字塔构建。给出一个在目标曲面上采样的节点图,通过对具有不同节点间隔的节点进行下采样,构造了一个多尺度图金字塔。第(l+1)级的节点是第l级节点的子集。级别越高,间隔越大。对于节点间的边,在欧氏空间的第一层计算每个节点的k近邻。然后在图上使用宽度优先搜索来计算更高层次的邻居。

数据生成。网络训练依赖于对物体的全三维运动的监督。作者利用DeformingThings4D数据集,其中包含了1,972个动画,跨越了31个类人和动物类别。

为了模拟三维重建场景,首先对物体表面上的图节点进行均匀采样。然后,引入一个虚拟摄像机,使移动的物体保持在渲染的深度图像的中心。一旦一个图节点被摄像机看到,该节点将被添加到一个观察节点集n中。因此,观察节点的数量将随着时间的推移而增加。对于帧t,构建当前观测节点集Nt的图金字塔。根据节点的可见性,Nt可分为Nvist和Nocct。对于每个节点,计算时间相邻帧之间的3D位移作为它的运动,而只是Nvist的运动输入到网络。另外,将目标随机调整为1m×1m×1m到2m×2m×2m的三维边界框里,这是动态重建系统常用的体。

3D重建系统。在三维重建系统中,利用最先进的二维光流预测方法RAFT来估计输入图像对之间的光流。由于输入图像包含深度信息,我们在合成光流数据集sintel、FlyingThings3D和monka上使用RGB-D四通道输入对RAFT网络进行再训练。额外的深度通道有助于实现更高的精度,特别是当运动模糊发生在彩色图像。然后,利用深度图像计算图节点的可见性,将二维图像坐标反投影到三维空间,得到可见节点的三维运动。对于历史帧的3D运动,使用3D重建系统的输出,而不是网络的输出,因为它集成了更多的约束,通常更准确。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 完美剔除和遮挡剔除都是计算机图形学中的优化技术,目的是在场景中只渲染可见的物体,从而提高渲染效率。 完美剔除是指通过检测物体是否在视野内来剔除不需要渲染的物体。这种剔除方式需要使用一系列算法来检测物体是否可见,包括视锥剔除、反向相交剔除等等。完美剔除的优点是可以剔除不必要的渲染,从而提高帧率和性能,但同时也需要较大的计算开销。 遮挡剔除则是在完美剔除的基础上,通过对物体的相互遮挡关系的检测来进一步提高渲染效率。在遮挡剔除中,通常会使用空间划分树等数据结构来优化遮挡关系的计算。遮挡剔除的优点是可以剔除视线被阻挡的物体,从而降低渲染负载,但是需要在每一帧进行遮挡检测,计算复杂度较高。 总的来说,完美剔除和遮挡剔除都是提高渲染效率的有效方法,但具体应用取决于具体的场景和计算需求。 ### 回答2: Perfect culling - occlusion culling,也叫视野遮挡剔除,是计算机图形学中的一项技术,利用算法判断物体是否在视野或视线范围内,决定哪些物体需要渲染,哪些可以被剔除或隐藏,从而加速计算机图形的处理速度和优化渲染。 完美剔除是指完全的剔除,即仅在无需绘制的情况下进行剔除,从而节省系统资源。通过分析场景中的物体和环境,可以减少未被看到的物体的绘制,从而提高帧率和性能。此外,完美剔除还可以消除隐藏物体对深度测试产生的影响,提高渲染质量。 视野遮挡剔除(Occlusion Culling)是一种先进的完美剔除技术,它基于场景的几何形状,通过计算相机的视线路径对场景中的物体进行剔除。通常,OC会对游戏场景进行预处理,并将相机的视锥体与场景的几何体进行比较,从而确定哪些物体可以被遮挡,从而进行动态的渲染。 综上所述,完美剔除-视野遮挡剔除是一种计算机图形学中高效的技术,可以显着提高渲染效率和性能,并使绘制的图形更加真实和准确。它在游戏开发、虚拟现实等领域有着广泛的应用前景。 ### 回答3: 完美的剔除技术——遮挡剔除 完美的剔除技术通常包括两种类型,一种是静态剔除,另一种是动态剔除。 遮挡剔除是一种静态剔除技术,它的基本原理是在场景渲染前,对场景进行逐像素的遮挡分析,找出被遮挡物体,将其剔除掉,只渲染视图内可见的物体,从而达到提高渲染性能的效果。这种技术可以应用于虚拟现实、游戏开发等领域,尤其是对于大规模场景和复杂场景的渲染,遮挡剔除可以显著降低渲染的开销,提高场景的渲染效率。 具体来讲,遮挡剔除通过采用空间分区、视景体裁剪等技术,将场景以及被渲染物体分为多个区域,然后逐个区域对相邻的物体进行深度比较和遮挡分析,找出被遮挡物体,将其剔除掉。如果采用了合适的剔除策略和算法,遮挡剔除可以大幅减少被渲染对象的数量,从而降低了渲染的开销,提高了渲染效率和帧率。 总的来说,遮挡剔除技术在现代计算机图形学中是非常重要的技术之一,它可以有效地提高场景渲染效率,增加场景的视觉真实感和交互性,是图形学领域中不可或缺的技术之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华科附小第一名

您的支持对我的前行很重要!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值