新研究可以帮助我们解锁虚拟现实和增强现实的创新
(映维网 2020 年 08 月 24 日)欧洲计算机视觉国际会议(ECCV)是计算机视觉三大顶级会议之一,每两年举办一次,其目的是促进计算机视觉研究的发展,并加强工业界、学术界的交流。对于今年的大会,来自世界各地的计算机视觉研究者和工程师都会在这里分享最新的进展。
Facebook同样不例外。日前,这家公司公布介绍了在 ECCV 2020 展示的一系列研究论文。下面映维网整理了可应用于虚拟现实和增强现实领域的论文及其摘要:
1. ContactPose: A data set of grasps with object contact and hand pose
抓握是人类的天性。然而,它涉及复杂的手部结构和软组织变形,从而导致手和物体之间产生复杂的接触区域。理解和建模这种接触可以潜在地改善手部模型、AR/VR 体验和机器人抓取。但我们目前缺乏手部 - 物体接触数据集与其他数据模式的配对,而这对于开发和评估接触建模技术至关重要。所以,我们提出了第一个与手势、物体姿态和 RGB-D 图像配对的手部 - 物体接触数据集 ContactPose。ContactPose 拥有 2306 个独特的抓握形态(由 50 名被试以 2 种功能意图抓握 25 个家庭物品),以及超过 290 万个 RGB-D 抓握图像。对接触姿态数据的分析揭示了手势和接触之间的有趣关系。我们使用这些数据来评估各种数据表示,文献中的启发式方法,以及接触建模的学习方法。数据、代码和经过训练的模型请访问这个页面。
2. Deep Local Shapes: Learning local SDF priors for detailed 3D reconstruction
对于机器感知,有效地重建复杂表面是一个长期目标。为了解决这个问题,我们提出了 Deep Local Shapes(DeepLS)。这是一种深度形状表示,它可以在不需要太多内存的情况下对高质量三维图形进行编码和重建。DeepLS 用一组由神经网络定义的连续 SDF 代替传统表面重建系统所使用的密集体三维符号距离函数(SDF)表示法,而相关灵感来自于 DeepSDF 等最新研究成果。与 DeepSDF 不同的是,我们存储一个由独立 latent code 组成的网格,其中每个 latent code 负责在一个小型局部邻域中存储有关表面的信息。这种将场景分解为局部形状的方法简化了网络必须学习的先验分布,并且能够进行有效的推理。通过演示对象形状编码和完整场景的重建,我们展示了 DeepLS 的有效性和泛化能力,说明了 DeepLS 能够实现高压缩、高精度和局部形状完成。
3. DeepHandMesh: Weakly supervised deep encoder and decoder framework for high-fidelity hand mesh modeling
手在我们与他人和物体的交互中扮演着关键角色。为了逼真地再现这些手部运动,我们必须重建高保真的手部网格。在这项研究中,我们首先提出了一个弱监督的深度编解码框架 DeepHandMesh。我们的系统设计成以一种端到端和弱监督的方式进行训练,因此,它不需要 ground truth 网格。相反,它依赖于较弱的监督,如三维关节坐标和多视图深度映射等比 ground truth 网格更容易获得的数据,并且不依赖于网格拓扑。尽管 DeepHandMesh 是以弱监督的方式训练,但它提供了比全监督手部模型更为真实的手部网格。通过复制手部之间的物理交互,我们新提出的穿透避免损失(penetration avoidance loss)进一步提升了结果。最后,我们证明我们的系统可以成功地应用于一般图像的手部三维网格估计。
4. Expressive telepresence via Modular Codec Avatars
VR 临场感是指在以虚拟化身的形式在虚拟空间中与另一个人进行交互。今天大多数的虚拟化身都是卡通式,但这项技术将很快允许逼真的虚拟化身形式。本论文提出了一种基于头显摄像头驱动的超逼真人脸生成方法 Modular Codec Avatars(MCA)。MCA 扩展了传统的 Codec Avatars(CA),将整体模型替换为模块化表示。需要注意的是,传统的 CA 使用很少的训练样本进行学习,并且在传递面部表情时通常缺乏鲁棒性和表达性。通过学习不同面部成分的调制,MCA 可以自适应混合,以及根据样本的潜在对齐来解决所述问题。我们证明了 MCA 在各种真实数据集和实际场景中能够实现优于 CA 的鲁棒性和表达性。最后,我们展示了基于所述模型的新应用。
5. Geometric correspondence fields: Learned differentiable rendering for 3D pose refinement in the wild
我们提出了一种基于可微绘制的三维姿态优化方法。与以前的方法相比,我们主要做了两个贡献:第一,我们没有在 RGB 或 mask 空间中比较真实的图像和合成的渲染,而是在一个优化了三维姿态优化的特征空间中对它们进行比较;其次,我们介绍了一种新的可微渲染器。它可以根据数据学习近似光栅化 backward pass。为此,我们以几何对应场的形式预测 RGB 图像和 3D 模型渲染之间的深层跨域对应。这些对应场作为像素级梯度,通过渲染管道向后传播,直接对三维姿态执行基于梯度的优化。通过这种方法,我们可以精确地将三维模型与 RGB 图像中的对象对齐,从而显著地改进了三维姿态估计。我们在十分具有挑战性的 Pix3D 数据集上对我们的方法进行了评估,并在多个指标中比最先进的细化方法实现了高达 55% 的相对改进。
6. InterHand2.6M: A new large-scale data set and baseline for 3D single and interacting hand pose estimation from a single RGB image
对手手交互进行分析是更好地理解人类行为的关键一步。然而,三维手部姿态估计的研究大多集中在单手情况。因此,我们提出了:一个大型数据集 InterHand2.6M;一个基线网络 InterNet,从而实现基于单张 RGB 图像的三维交互手位姿态估计。所提出的 InterHand2.6M 由 260 万个标记的单手交互帧和多个被试的不同姿势交互组成。我们的 InterNe 同时执行三维单手和交互手位的姿态估计。在我们的实验中,当利用 InterHand2.6M 中的交互手位数据时,3D 交互手位的姿态估计精度有了很大的提高,我们同时报告了 InterHand2.6M 的 InterNet 的精度。最后,我们给出了基于一般图像的三维交互手位姿态估计结果。
7. SoundSpaces: Audio-visual embodied navigation
自由走动是一种多感官体验,但今天的具现化身是聋子,它们仅限于对环境的视觉感知。我们为复杂的声视觉三维环境引入了视听导航。我们提出了一种多模式的深度强化学习方法,并对导航策略进行端到端的训练,从而允许化身:发现由混响音频指示的物理空间中的几何元素;检测并追踪声发射目标。我们进一步介绍了 SoundSpaces,这是第一个基于几何声学模拟的音频渲染数据集,适用于两组公开可用的 3D 环境(Matterport3D 和 Replica)。我们使用 Habitation 来支持新的传感器,使得在真实世界的扫描环境中插入任意声源成为可能。我们的研究结果表明,在三维空间中,音频对具现化身视觉导航有很大的帮助,我们的研究为基于视听感知的具现 AI 研究奠定了基础。
8. TexMesh: Reconstructing detailed human texture and geometry from RGB-D video
我们提出了一种基于 RGB-D 视频的高分辨率人体纹理重建方法 TexMesh。TexMesh 支持高质量的人类自由视点渲染。在给定 RGB 帧,捕获的环境映射,以及通过 RGB-D 追踪得到的逐帧人体网格的基础上,我们的方法能够重建时空一致的的详细每帧网格,以及高分辨率的反照率纹理。通过使用入射光,我们能够准确地估计局部表面的几何结构和反照率,这使得我们能够进一步使用光度约束,并以自监督的方式将经过综合训练的模型适配真实世界的序列,从而进行详细的表面几何和高分辨率纹理估计。在实践中,我们在一个简短的示例序列训练我们的模型。我们在合成数据和实际数据上验证了 TexMesh,并表明它在定量和定性方面都优于现有的技术。