NeuRas,VoxNeRF,BakedAvatar,Control3D,ConRad

最新推荐文章于 2024-10-18 11:21:51 发布

小P学长

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量996

点赞数 24

分类专栏：小P学长编程分享文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2301_77854234/article/details/134857453

版权

小P学长编程分享专栏收录该内容

116 篇文章 20 订阅

订阅专栏

🚀 提升你的编程、科研学习体验！ 🚀

大家好，我是小P学长！我分享了一个PyTorch与TensorFlow介绍。

🌟 如何获取学习资料？

支持我的博客https://studentp.cloud/p/search.html?text=，输入关键词查找项目（比如“注意力机制”、“cifar”等）。
获取宝藏内容。

🎉 感谢你的支持！ 🎉

NeRF相关

Real-Time Neural Rasterization for Large Scenes

https://arxiv.org/abs/2311.05607

Jeffrey Yunfan Liu, Yun Chen, Ze Yang, Jingkang Wang, Sivabalan Manivasagam, Raquel Urtasun

Waabi、多伦多大学、滑铁卢大学

我们提出了一种用于大场景的真实实时小说视图合成（NVS）的新方法。现有的神经渲染方法可以生成逼真的结果，但主要适用于小规模场景（<50 平方米），难以处理大范围场景（>10000 平方米）。传统的基于图形的光栅化渲染对于大型场景来说速度很快，但缺乏真实感，并且需要昂贵的手动创建的资源。我们的方法结合了两全其美的方法，采用中等质量的支架网格作为输入，学习神经纹理场和着色器来建模依赖于视图的效果以增强真实感，同时仍然使用标准图形管道进行实时渲染。我们的方法优于现有的神经渲染方法，为大型自动驾驶和无人机场景提供至少 30 倍的更快渲染速度，并具有相当或更好的真实感。我们的工作是第一个实现大型现实世界场景实时渲染的工作。

NeRF与3D视觉

，赞5

VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis

https://arxiv.org/abs/2311.05289

Sen Wang, Wei Zhang, Stefano Gasperini, Shun-Cheng Wu, Nassir Navab

TUM、Huawei Munich Research Center、University of Stuttgart、VisualAIs

创建高质量的视图合成对于沉浸式应用程序至关重要，但仍然存在问题，特别是在室内环境和实时部署中。当前的技术经常需要大量的计算时间来进行训练和渲染，并且由于几何结构不充分，常常会产生不太理想的 3D 表示。为了克服这个问题，我们引入了 VoxNeRF，这是一种利用体积表示来提高室内视图合成的质量和效率的新颖方法。首先，VoxNeRF 构建结构化场景几何形状并将其转换为基于体素的表示。我们采用多分辨率哈希网格来自适应捕获空间特征，有效管理室内场景的遮挡和复杂的几何形状。其次，我们提出了一种独特的体素引导高效采样技术。这项创新有选择地将计算资源集中在射线段最相关的部分，从而大大减少了优化时间。我们针对三个公共室内数据集验证了我们的方法，并证明 VoxNeRF 优于最先进的方法。值得注意的是，它在实现这些收益的同时减少了训练和渲染时间，速度甚至超越了 Instant-NGP，并使该技术更接近实时。

BakedAvatar: Baking Neural Fields for Real-Time Head Avatar Synthesis

https://arxiv.org/abs/2311.05521

Hao-Bin Duan, Miao Wang, Jin-Chuan Shi, Xu-Chuan Chen, Yan-Pei Cao

北航、腾讯ARC Lab

从视频中合成逼真的 4D 人体头部头像对于 VR/AR、远程呈现和视频游戏应用至关重要。尽管现有的基于神经辐射场（NeRF）的方法可以实现高保真度结果，但计算费用限制了它们在实时应用中的使用。为了克服这一限制，我们引入了 BakedAvatar，这是一种用于实时神经头部头像合成的新颖表示，可部署在标准多边形光栅化管道中。我们的方法从学习的头部等值面中提取可变形的多层网格，并计算依赖于表情、姿势和视图的外观，这些外观可以烘焙到静态纹理中以实现高效的光栅化。因此，我们提出了用于神经头部化身合成的三阶段管道，其中包括学习连续变形、流形和辐射场，提取分层网格和纹理，以及通过差分光栅化微调纹理细节。实验结果表明，我们的表示生成的合成结果与其他最先进的方法具有可比性，同时显着减少了所需的推理时间。我们进一步展示了单目视频的各种头部头像合成结果，包括视图合成、面部重演、表情编辑和姿势编辑，所有这些都以交互式帧速率进行。

生成式3D相关

Control3D: Towards Controllable Text-to-3D Generation

https://arxiv.org/abs/2311.05461

Yang Chen, Yingwei Pan, Yehao Li, Ting Yao, Tao Mei

中国科技大学、中山大学、HiDream.ai Inc.

最近大规模文本到图像扩散模型的显着进展激发了文本到 3D 生成的重大突破，追求仅根据给定文本提示创建 3D 内容。然而，现有的文本转 3D 技术缺乏创作过程中的关键能力：根据用户所需的规格（例如草图）交互式地控制和塑造合成 3D 内容。为了缓解这个问题，我们首次尝试在额外的手绘草图上进行文本到 3D 生成调节，即 Control3D，它增强了用户的可控性。特别是，重塑了 2D 条件扩散模型 (ControlNet)，以指导参数化为 NeRF 的 3D 场景的学习，鼓励 3D 场景的每个视图与给定的文本提示和手绘草图对齐。此外，我们利用预先训练的可微分照片到草图模型来直接估计合成 3D 场景上渲染图像的草图。此类估计草图以及每个采样视图进一步强制与给定草图在几何上一致，从而追求更好的可控文本到 3D 生成。通过大量的实验，我们证明我们的建议可以生成准确且忠实的 3D 场景，与输入文本提示和草图紧密结合。

ConRad: Image Constrained Radiance Fields for 3D Generation from a Single Image

https://arxiv.org/abs/2311.05230

Senthil Purushwalkam, Nikhil Naik

Salesforce AI Research

我们提出了一种从单个 RGB 图像重建 3D 对象的新颖方法。我们的方法利用最新的图像生成模型来推断隐藏的 3D 结构，同时保持对输入图像的忠实。虽然现有方法在根据文本提示生成 3D 模型方面取得了令人印象深刻的结果，但它们没有提供一种简单的方法来调节输入 RGB 数据。这些方法的简单扩展通常会导致输入图像和 3D 重建之间的外观对齐不正确。我们通过引入图像约束辐射场（ConRad）来解决这些挑战，这是神经辐射场的一种新变体。ConRad 是一种高效的 3D 表示，可明确捕获一个视点中输入图像的外观。我们提出了一种训练算法，利用单个 RGB 图像与预训练的扩散模型相结合来优化 ConRad 表示的参数。大量实验表明，ConRad 表示可以简化图像细节的保存，同时生成逼真的 3D 重建。与现有的最先进的基线相比，我们表明我们的 3D 重建仍然更忠实于输入并生成更一致的 3D 模型，同时在 ShapeNet 对象基准上展示了显着改进的定量性能。