基于合成神经场的动态激光雷达再模拟NeRF&Beyond 12.11日报(TriHuman，DyNFL，Marigold，IntrinsicAvatar，GIR，SingingHead）_dynamic lidar re-simulation using compositional ne-CSDN博客

NeRF&Beyond 12.11日报(TriHuman，DyNFL，Marigold，IntrinsicAvatar，GIR，SingingHead）

收起

NeRF相关

TriHuman : A Real-time and Controllable Tri-plane Representation for Detailed Human Geometry and Appearance Synthesis

Dynamic LiDAR Re-simulation using Compositional Neural Fields

深度估计

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

逆渲染相关

IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray Tracing

GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization

数据集

SingingHead: A Large-scale 4D Dataset for Singing Head Animation

About Us

NeRF相关

TriHuman : A Real-time and Controllable Tri-plane Representation for Detailed Human Geometry and Appearance Synthesis

https://arxiv.org/abs/2312.05161

Heming Zhu, Fangneng Zhan, Christian Theobalt, Marc Habermann

MPI

仅根据视频数据创建可控的、逼真的、几何细节丰富的真人数字替身是计算机图形和视觉领域的一个关键挑战，特别是在需要实时性能时。最近的方法将神经辐射场（NeRF）附加到铰接结构（例如身体模型或骨骼），以将点映射到姿势规范空间，同时在骨骼姿势上调节 NeRF。这些方法通常使用多层感知器（MLP）对神经场进行参数化，从而导致运行时间缓慢。为了解决这个缺点，我们提出了 TriHuman 一种新颖的人体定制、可变形且高效的三平面表示，它实现了实时性能、最先进的姿势可控几何合成以及照片级真实感渲染质量。核心是，我们将全局光线样本非刚性地扭曲到未变形的三平面纹理空间中，这有效地解决了全局点映射到相同三平面位置的问题。然后，我们展示如何以骨骼运动为条件来调节这种三平面特征表示，以考虑动态外观和几何变化。我们的结果表明，在人体几何和外观建模以及运行时性能方面，朝着更高质量迈出了明确的一步。

Dynamic LiDAR Re-simulation using Compositional Neural Fields

https://arxiv.org/abs/2312.05247

Hanfeng Wu, Xingxing Zuo, Stefan Leutenegger, Or Litany, Konrad Schindler, Shengyu Huang

ETH Zurich，TUM，Technion，nVIdia

我们介绍 DyNFL，这是一种基于神经场的新型方法，用于动态驾驶场景中 LiDAR 扫描的高保真度重新模拟。 DyNFL 处理动态环境中的 LiDAR 测量结果以及移动物体的边界框，以构建可编辑的神经场。该场由单独重建的静态背景和动态对象组成，允许用户修改视点、调整对象位置以及在重新模拟的场景中无缝添加或删除对象。我们方法的一个关键创新是神经场合成技术，它通过光线下降测试有效地集成了来自不同场景的重建神经资产，并考虑了遮挡和透明表面。我们对合成环境和真实环境的评估表明，显着改进了基于 LiDAR 扫描的动态场景模拟，提供了物理保真度和灵活编辑功能的组合。

深度估计

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

https://arxiv.org/abs/2312.02145

Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler

ETH Zurich

单目深度估计是一项基本的计算机视觉任务。从单个图像中恢复 3D 深度在几何上是不适定的，并且需要场景理解，因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器令人印象深刻的进步反映了模型容量的增长，从相对适中的 CNN 到大型 Transformer 架构。尽管如此，单目深度估计器在面对内容和布局不熟悉的图像时往往会遇到困难，因为他们对视觉世界的了解受到训练期间看到的数据的限制，并且受到零样本泛化到新领域的挑战。这促使我们探索最近的生成扩散模型中捕获的广泛先验是否可以实现更好、更通用的深度估计。我们介绍了 Marigold，一种仿射不变单目深度估计方法，该方法源自稳定扩散并保留了其丰富的先验知识。仅使用合成训练数据就可以在几天内在单个 GPU 上对估计器进行微调。它在各种数据集上提供最先进的性能，包括在特定情况下提高 20% 以上的性能。

逆渲染相关

IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray Tracing

https://arxiv.org/abs/2312.05210

Shaofei Wang, Božidar Antić, Andreas Geiger, Siyu Tang

ETH，University of Tubingen，Tubingen AI Center

我们提出了 IntrinsicAvatar，这是一种新颖的方法，可以仅从单眼视频中恢复穿着衣服的人类化身的内在属性，包括几何形状、反照率、材质和环境照明。基于人体的神经渲染的最新进展使得仅通过单眼视频即可对穿着的人类进行高质量的几何和外观重建。然而，这些方法将反照率、材质和环境照明等内在属性烘焙成单个纠缠神经表示。另一方面，只有少数作品解决了从单眼视频中估计穿着人类的几何形状和解开外观属性的问题。由于通过学习的 MLP 实现二次着色效果的近似，它们通常只能实现有限的质量和解缠结。在这项工作中，我们建议通过蒙特卡罗光线追踪显式地模拟二次着色效果。我们将穿着人体的渲染过程建模为体积散射过程，并将光线追踪与身体关节结合起来。我们的方法可以从单个单眼视频中恢复穿着人类的高质量几何形状、反照率、材质和照明属性，而不需要使用地面实况材料进行监督预训练。此外，由于我们明确地建模了体积散射过程和光线追踪，因此我们的模型自然地推广到新颖的姿势，从而能够在新颖的照明条件下实现重建化身的动画。

GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization

https://arxiv.org/abs/2312.05133

Yahao Shi, Yanmin Wu, Chenming Wu, Xing Liu, Chen Zhao, Haocheng Feng, Jingtuo Liu, Liangjun Zhang, Jian Zhang, Bin Zhou, Errui Ding, Jingdong Wang

北航、北大深圳研究生院、百度VIS

本文介绍了 GIR，一种用于可重新照明场景分解的 3D 高斯逆渲染方法。与利用离散网格或神经隐式场进行逆渲染的现有方法相比，我们的方法利用 3D 高斯从多视图图像中估计对象的材料属性、照明和几何形状。我们的研究动机是有证据表明 3D 高斯在性能、多功能性和效率方面比神经领域更有前景。在本文中，我们旨在回答以下问题：“如何应用 3D 高斯来提高逆渲染的性能？”为了解决基于离散且通常不均匀的分布式 3D 高斯表示估计法线的复杂性，我们提出了一种有效的自正则化方法，可以方便地对表面法线进行建模，而无需额外的监督。为了重建间接照明，我们提出了一种模拟光线追踪的方法。大量实验证明，我们提出的 GIR 在逆向渲染中的各种广泛使用的数据集上的多个任务上比现有方法具有优越的性能。这证实了其功效和广泛的适用性，凸显了其作为重新照明和重建方面有影响力的工具的潜力。项目页面：此 https URL

数据集

SingingHead: A Large-scale 4D Dataset for Singing Head Animation

https://arxiv.org/abs/2312.04369

Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu, Yichao Yan, Guangtao Zhai

上海交通大学

歌唱作为仅次于说话的常见面部动作，可以说是跨民族、跨文化的通用语言，在情感交流、艺术、娱乐等方面发挥着重要作用。然而，由于缺乏歌头数据集以及唱歌和说话在节奏和幅度上的域差距，它在音频驱动的面部动画领域经常被忽视。为此，我们收集了一个高质量的大规模歌头数据集SingingHead，该数据集由76个人、8种音乐类型的超过27小时的同步歌唱视频、3D面部动作、歌唱音频和背景音乐组成。结合SingingHead数据集，我们认为3D和2D面部动画任务可以一起解决，并提出了一个名为UniSinger的统一歌唱面部动画框架，以实现歌唱音频驱动的3D歌头动画和2D歌唱肖像视频合成。对 SOTA 3D 面部动画和 2D 肖像动画方法的广泛比较实验证明了歌唱头部动画任务中特定歌唱数据集的必要性以及我们统一的面部动画框架的良好性能。

About Us

NeRF and Beyond微信交流群现已有2300从业人员交流群，加入我们，请添加我的微信：jiheng_yang，我会拉大家进群。
Jason陪你练绝技B站更新地址：https://space.bilibili.com/455056488
NeRF相关工作整理Github repo：https://github.com/yangjiheng/nerf_and_beyond_docs
如果我们的内容引起双盲审核问题，或其他不便，请微信、私信，或留言联系我，我会进行内容删除，谢谢！