【ETHZ博士论文】真实世界约束下的2D和3D生成模型

最新推荐文章于 2025-05-24 21:31:36 发布

数据派THU

最新推荐文章于 2025-05-24 21:31:36 发布

阅读量129

点赞数

文章标签： 3d 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247644323&idx=3&sn=86c2555db7052ab3af3405f231926589&chksm=e829c9e6eff38b084b9a7aa8873e2afcaae55ae67d3cd9e91e4b508e74e6e3bc2498701b7925&scene=126&sessionid=0

版权

来源：专知
本文约1000字，建议阅读5分钟
本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

生成建模的最新进展正在改变视觉内容的创作，并在计算机视觉和图形学的多个应用中显示出巨大的前景。然而，生成模型在日常任务中的应用受到生成过程可控性、数据需求和计算要求等挑战的制约。本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

首先，我们致力于通过迁移学习提高类别条件生成对抗网络（GAN）的数据效率。我们引入了一种新的类别特定迁移学习方法，称为cGANTransfer，基于类别之间的相关性，明确传播旧类别的知识到新类别。通过广泛的评估，我们证明了该方法在条件GAN迁移学习中的优越性，优于之前的方法。

其次，我们研究了使用小数据集训练类别条件GANs的问题。我们特别指出了在小数据集上训练条件GAN时出现的条件崩溃——即模式崩溃。为了解决这一问题，我们提出了一种基于过渡条件的训练策略，该策略通过额外利用无条件学习，有效地防止了观察到的模式崩溃。这种方法不仅实现了稳定的训练，还通过在训练的早期阶段利用类别间共享信息，生成了高质量的图像。

第三，我们解决了NeRF-GANs的计算效率问题。NeRF-GANs是一类基于神经辐射场（NeRFs）和GANs集成的3D感知生成模型，训练于单视图图像数据集上。具体而言，我们重新审视了姿态条件的二维GANs，以在推理阶段实现高效的3D感知生成。通过从预训练的NeRF-GANs中提取3D知识，我们提出了一种简单而有效的方法，用于高效推理3D感知GANs。该方法基于在姿态条件卷积网络中重用预训练的NeRF-GAN的良好解耦的潜在空间，以直接生成与底层3D表示一致的3D图像。

最后，我们解决了在3D场景中进行物体生成的新任务，而无需任何3D监督或用户提供的3D放置指导。我们引入了InseRF，这是一种在NeRF重建的3D场景中进行生成物体插入的新方法。基于用户提供的文本描述和参考视图中的二维边界框，InseRF能够在无需明确的3D信息作为输入的情况下，实现对3D场景中物体的可控且3D一致的插入。