【ETHZ博士论文】真实世界约束下的2D和3D生成模型

53b403bf983538b1dd91b49fb1def281.png

来源:专知
本文约1000字,建议阅读5分钟
本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

9ea6e5b5ec2dc433238b7d30ceacfa70.png

生成建模的最新进展正在改变视觉内容的创作,并在计算机视觉和图形学的多个应用中显示出巨大的前景。然而,生成模型在日常任务中的应用受到生成过程可控性、数据需求和计算要求等挑战的制约。本论文重点解决二维和三维生成模型在真实世界约束下所面临的这些问题。

首先,我们致力于通过迁移学习提高类别条件生成对抗网络(GAN)的数据效率。我们引入了一种新的类别特定迁移学习方法,称为cGANTransfer,基于类别之间的相关性,明确传播旧类别的知识到新类别。通过广泛的评估,我们证明了该方法在条件GAN迁移学习中的优越性,优于之前的方法。

其次,我们研究了使用小数据集训练类别条件GANs的问题。我们特别指出了在小数据集上训练条件GAN时出现的条件崩溃——即模式崩溃。为了解决这一问题,我们提出了一种基于过渡条件的训练策略,该策略通过额外利用无条件学习,有效地防止了观察到的模式崩溃。这种方法不仅实现了稳定的训练,还通过在训练的早期阶段利用类别间共享信息,生成了高质量的图像。

第三,我们解决了NeRF-GANs的计算效率问题。NeRF-GANs是一类基于神经辐射场(NeRFs)和GANs集成的3D感知生成模型,训练于单视图图像数据集上。具体而言,我们重新审视了姿态条件的二维GANs,以在推理阶段实现高效的3D感知生成。通过从预训练的NeRF-GANs中提取3D知识,我们提出了一种简单而有效的方法,用于高效推理3D感知GANs。该方法基于在姿态条件卷积网络中重用预训练的NeRF-GAN的良好解耦的潜在空间,以直接生成与底层3D表示一致的3D图像。

最后,我们解决了在3D场景中进行物体生成的新任务,而无需任何3D监督或用户提供的3D放置指导。我们引入了InseRF,这是一种在NeRF重建的3D场景中进行生成物体插入的新方法。基于用户提供的文本描述和参考视图中的二维边界框,InseRF能够在无需明确的3D信息作为输入的情况下,实现对3D场景中物体的可控且3D一致的插入。

11e6e41084a1d4e65a7cfc84f8374ff5.png

c41f7840144854e16d02bb5305c4bec0.png

bf096a783b1ace5d092eebf411967911.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

9ca813c0c9dfc994feffd8fe49d2e402.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值