StyleSDF:高分辨率3d一致的图像和几何生成学习笔记

原文链接:StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

一、摘要

技术概要

        StyleSDF:高分辨率,3d一致的图像和形状生成技术。将基于SDF的3D表示与基于样式的2DStyleGAN生成器合并,使用基于坐标的多层感知器(MLP)来建模有符号距离场(SDF)和渲染低分辨率特征图的密度长,之后用StyleGAN生成器将这些特征映射有效地转换为高分辨率图像。

        StyleGAN架构:可生成单一的RGB视图,且图像质量很高,但无法生成3D内容。

解决的问题

        ①高分辨率和RGB图像的视图一致性问题:利用3D隐式网络渲染低分辨率特征图,基于风格的网络从中生成视图一致的1024x1024图像;

        ②详细的3D形状:基于SDF的3D建模定义了详细的3D表面,以保证一致的提渲染。

成果

        ①通过在FFHQ和AFHQ数据集上进行评估,可知在视觉和几何质量方面,与目前最先进的方法相比,该方法的结果质量更高;

        ②模型使用对抗损失进行训练,使用Eikonal损失确保正确SDF建模,这些损失能自动诱导视图一致且详细的3D场景,而无需3D或多视图监督;

        ③有效解决现有基于体绘制的3d感知GAN方法的分辨率和视图不一致问题。

本节涉及的专业名词:
3D一致性:生成的图像在多视图下保持一致,呈现真实的3D图像;

SDF:标准延迟格式,SDF文件负责把布局布线中器件延时和线延时信息保留下来,以此在路径分析时计算整条路径时序;

GAN:生成对抗网络,包含一个生成模型和一个判别模型。其中,生成模型负责捕捉样本数据的分布,而判别模型一般情况下是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈”问题 [2],训练时固定其中一方(判别网络或生成网络),更新另一个模型的参数,交替迭代,最终,生成模型能够估测出样本数据的分布;

MLP:多层感知器,一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上;

Eikonal损失:程函损失,详情参考https://zhuanlan.zhihu.com/p/653754755;

FFHQ:高清人脸数据集;
AFHQ:高清动物面部数据集。

二、国内外研究现状

现有技术概述

技术名称优点缺点
生成对抗网络MLP可以合成与真实图像几乎无法区分的高分辨率RGB图像,引入对比学习、逆图形、示例图像和多输入视图概念缺乏明确的相机控制,没有3D理解,需要来自3DMM模型的形状先验,或将重建表面作为预处理步骤
神经隐式表征NIR可以使用可微渲染将其3D模型拟合到多视图图像中,从多视图2D监督中重建3D结构
神经辐射场NeRF引入体绘制,作为神经辐射场和密度场的组合重建3D场景,以合成新的视图
神经网络框架SIREN使用调制频率的正弦函数,显示出很好的单场景拟合效果
单视图监督3D-awareGANs从一组无约束的单视图图像中学习3D生成模型,而不依赖3D或多视图监督,优化3D表现,使用对抗性损失来渲染所有随机采样的逼真2D图像
使用隐神经辐射场进行3d感知图像和几何生成使用密度场作为几何图形的代理,为网络提供了足够的余地来生成逼真的图像体绘制计算成本高,导致该方法仅限于低分辨率输出;违反3D一致性,导致在相机视点上体渲染不一致
ShadeGAN引入阴影引导管道,GOF缩小各相机光线采样区域图像分辨率仍受到体绘制的计算负担的限制
GI-RAFFE提出一种双阶段渲染过程提高了图像质量输出缺乏视图一致性,发型、表情等与相机世界输入纠缠在一起
并发作品采用双阶段渲染过程或智能采样程序生成高分辨率图像未建立定义良好的、视图一致的3D几何模型

三、算法概述

算法框架组成

        包括两个主要组件,分别为主干条件SDF体渲染器和基于2D样式的生成器,各组件还具有一个伴随的映射网络,将输入潜在向量映射为每一层的调制信号,具体架构见下图。

         其中左侧是StyleSDF架构,其中SDF体渲染器接受潜在代码和相机参数,查询体中点和视图方向,并将3D表面特征投影到2D视图;右侧为SDF体渲染器联合建模体积SDF和辐射场,提供了定义良好且视图一致的几何形状。

技术流程

        ①采样一个潜在向量z(单位正态分布),以及来自数据集估计的物体姿态分布的相机方位角和仰角(假设相机位于单位球面并指向原点);

        ②体渲染器输出带符号的距离值、RGB颜色及研相机光线的所有采样体积点的256个元素特征向量;

        ③根据采样点SDF值计算表面密度,并应用体绘制将3D表面特征投影到2D特征图中;

        ④2D生成器获取特征图,并从所需视角生成输出图像;3D表面可以用体绘制的深度可视化,也可用marching-cubes算法的网络可视化。

基于SDF的体绘制(核心)

        本人没太看懂,建议阅读原文。

        主体渲染器接受一个3D查询点x和一个观察方向v。在潜在向量z的条件下,它输出一个SDF值d(x, z),一个与视图相关的颜色值c(x, v, z)和一个特征向量f(x, v, z),清楚起见,这里省略z。

        SDF值表示被查询点到表面边界的距离,符号表示该点位于水密度表面边界的距离,符号表示该点位于水密度表面内还是水密度外。如VolSDF所示,SDF可以作为用于传统体绘制的密度函数的代理。假设非空心表面,我们将SDF值转换为三维密度场σ。

        其中\alpha是学习率,控制表面边界周围密度的紧密型。接近0的\alpha值表示固体、尖锐的对象边界,而较大的\alpha值表示更“蓬松”的对象边界,而较大的正SDF值将使sigmoid函数趋近于0,即表面外没有密度;较大的负SDF值将使sigmoid函数趋近于1,即表面内密度最大。

        用体渲染渲染低分辨率64x64特征图和彩色图像。对于每个像素查询一条源自相机位置o的光线上的点,并指向相机方向r(t)=o+tv,并计算RGB颜色和特征图,我们用沿着射线的离散采样来近似。

         但并不使用分层抽样,我们将[tn, tf]分成N个均匀大小的箱子,均匀地绘制一个单一的偏移项

δ ~ U[0, fNN]和采样的N个等间隔点。

        同时,完全放弃分层采样,从而渐少了50%的样本数量。

        SDF的结合提供了清晰的表面定义,允许我们通过Marching Cubes提取网络。即使使用简化的体积采样策略,使用SDF以及相关损失也可以在表达性和视图一致性方面获得更高质量的几何图形。

        该体渲染器的架构与Pi-GAN的架构基本匹配。映射网络由具有LeakyReLU激活的3层MLP组成,并将输入潜代码z映射到w空间,然后为体渲染器的每一层生成频率调制和相移。体绘制网络包含8个共享的调制FC层,并激活了SIREN。

 

         其中Wi和bi是全连接层的权重矩阵和偏置向量。体渲染器分成两个路径——SDF路径和颜色路径。SDF路径由单个FC层实现;颜色路径中,最后一个共享层输出与视图方向输入连接,并传递到一个额外的FilM siren层,然后是一个生成颜色输出的FC层,可总结为:

        其中\phif的输出特征被传递给基于2D风格的生成器,生成的低分辨率彩色图像被馈送给判别器进行监督,鉴别器与Pi-GAN的鉴别器相同。

        观察得知,使用依赖于视图的颜色c(x, v)往往会使网络过度拟合数据集中的偏差。然而,当我们一处与视点相关的颜色时,模型并没有收敛。因此,为了获得视图一致的图像,用视图相关的颜色来训练我们的模型,但在推理过程中将视图方向v固定到正面视图。

高分辨率图像生成

        将体量渲染器与StyleGAN2网络融合在一起,该网络具有合成高分辨率2D图像的成熟能力。

具体工作

        ①截断StyleGAN2生成器的早期层,直到64x64层,并向生成器提供由主干体积呈现器生成的64x64特征映射。

        ②将StyleGAN2的映射网络从8层削减为5层,并将来自体渲染器映射网络的w潜在代码输入其中,而非原始的潜在向量z,鉴别器保持不变。

 优化结果

        体渲染器学习下划线几何,明确从其外观中解耦物体的姿态,并在推理期间实现对相机位置的完全控制;StyleGAN2生成器对低分辨率特征图进行上采样,添加高频细节,并模拟复杂的光传输效果,如亚表面散射和互相反射,这些很难用低分辨率渲染器建模。

训练过程

        采取两个阶段的培训程序,先只训练基于SDF的体渲染器,之后在冻结体渲染器权重并训练StyleGAN生成器。

体渲染器训练(核心)

        没有太看懂,建议阅读原文,以下只是个人总结。

        使用带有R1正则化的非饱和GAN损失,表示为Ladv来训练体渲染器,在此基础上使用了3个额外的正则化术语。

姿态对齐损失

        旨在确保所有生成对象都是全局对齐的,在预测图像是真还是假的基础上,鉴别器还尝试预测两个输入相机的角度,我们使用平滑的L1损失来惩罚预测误差:

        这个损失应用于应用于生成器和鉴别器的两个视角,但由于没有原始数据集的环境真实姿态数据,这个损失只能用于鉴别器传递中的假图像。

Eikonal损失
        保证学习到的SDF在物理上有效。
最小的表面损失

        鼓励3D网络以最小的过零体积来描述场景,以防止在场景内形成虚假和不可见的表面,即对接近0的SDF值进行惩罚:

整体损失函数

样式生成器训练

        参数:与原始实现相同的损失和优化器参数、非饱和对抗损失、R1正则化和路径正则化(同体渲染器训练,根据数据集设置R1正则化权重)。

        结果:低分辨率和高分辨率输出的图像见可能存在重建损失,但当2D卷积架构和style代码共享的归纳偏差足够强时,可以保留图像之间的重要结构和身份,如下图所示。

四、具体实验

数据集

        FFHQ(70000张图像)和AFHQ(15630张图像,包含多种动物且未对齐)数据集,分辨率512x512。

基线

        通过测量生成图像的质量、形状和渲染一致性,与已有最先进的3d感知GAN基线——GIRAFFE、PiGAN和holGAN比较。

定性评估

        通过从4个不同的视角渲染相同的标识(潜代码),将图像的视觉质量与基线方法进行比较。

        同时,展示了从StyleSDF、Pi-GAN和GRAF中移动立方体提取的表面,具体输出结果对比见下图。

        新视图合成:可以从数据集分布中没有很好表示的视点生成图像,分布外视图合成示例如下图。

        视频结果:敦促读者查看项目网站,其中包含更多结果和视频集,以便更好地了解StyleSDF的多视图功能(可以找原论文看看,这里不多赘述)。

定量评估

        使用Freehet盗梦距离(FID)和Kernel盗梦距离(KID)来评估生成图像的视觉质量和多样性,将分数与FFHQ和AFHQ数据集的上述基线模型进行比较。

        所有基线模型都按照给定的管道进⾏训练,以⽣成256x256图像(Pi-GAN在128x128图像上训练),并在推理时呈现256x256图像,具体结果如下表,表明StyleSDF在视觉质量方面始终优于所有基线,与同期作品如StyleNerf和CIPS-3D报告分数相当。

体绘制一致性

体绘制

        体绘制是一种从2D图像中可微优化体场的关键技术,体绘制擅长于建模薄表面或透明物体,这些很难用显示表面建模的物体。

        通过采样1000个身份,从正面视图和固定的侧面视图渲染128x128深度图,并计算两个视图间对齐,深度值为沿每条射线均匀采样的128个点的期望终止距离。同时删除积累不透明度低于0.5的非终止射线,侧面视点设置为1.5x标准基线。

        为测量深度点之间的对准误差,采用改进的Chamfer距离度量。

        对某些点集S1和S2,这个指标对来自有遮挡和背景布匹配的异常值更鲁棒,但这并非测量重点。为使度量尺度规模化,通过体积采样箱大小对距离进行归一化。

        如下图,与目前最强的基线Pi-GAN相比,我们使用SDF表示显著提高了深度一致性。

         下图现实了用于评估和误差可视化的样本深度图,彩色图显示,除遮挡区域和背景之外,我们的深度图对齐得很好。相比之下,Pi-GAN深度图显示显著的噪声和虚假的凹区域。

         如图,我们利用体绘制的深度值,将侧视图渲染的重投影可视化到正面视图,重新投影的像素与原始正面视图的像素非常匹配,表明高分辨率多视图RGB渲染图和深度图都是一致的。

五、项目局限性

        StyleSDF可能出现轻微的混叠和闪烁;

        由于StyleSDF在没有多视图数据情况下很难消除歧义、镜面或其他强照明效果目前会引入深度凹陷;

        目前项目组未将前景与背景分开,而是对整个图像使用单一的SDF,如下图右列显示了猫的脸如何被正确渲染,但过渡到背景的过程太突然,可能降低图片真实感。

改进方法

方法一

        ①将两个部分训练成单一的端到端框架,而非两个网络;

        ②StyleGAN2鉴别器向体渲染器发送适当梯度,以产生最佳特征图,这可能导致更精细的几何形状;

        针对这种改进方法,端到端训练提出一个权衡,这种设置增加的GPU内存消耗将需要减少批量大小,可能损失整体性能,或者如果保持批量大小并积累梯度,则需要增加训练时间。

方法二

        创建一个与SDF表面边界绑定的体积采样策略(以减少每次前向传递的查询点数量),并消除对上采样特征图的2D CNN的需求,直接将3D几何图形与高分辨率图像联系起来。

六、结论

        1.介绍StyleSDF:可以呈现1024x1024视图一致的图像及详细的底层几何图形方法。

        2.提出框架:结合基于SDF的体渲染器+2D StyleGAN网络,并经过训练,通过对抗性损失为所有采样视点生成逼真的图像,自然地诱导视图一致的3D场景。

        3.意义:StyleSDF表示和学习复杂的3D形状和外观,不需要多视图或3D监督,只需单视图图像的数据集,为神经网络3D内容生成、编辑和重建提供新途径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值