原文链接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw
生成模型和图像合成
在定向光下学习物理引导的面部重照明
论文地址:https://arxiv.org/abs/1906.03355
重照明包括将不可见的源图像及其对应的定向光照明朝向新的所需定向光进行调整。先前的工作做出了很好的结果,但仅限于平滑的光照,并且没有对非漫射效果(例如投射阴影和镜面反射)进行建模。
为了能够创建精确且可信的照明效果,并将其推广到复杂的照明条件和具有挑战性的姿态,作者提出了一种端到端的深度学习体系架构,该体系架构既可以让人的脸部图像使人感到愉悦又可以对其进行光照。这分两个阶段完成:
第一阶段包括使用Unet架构预测输入图像的反照率( albedo )和法线 (normals ),然后将所需的定向光与法线一起运用以预测阴影,然后进行漫反射。
第二阶段中,使用第一阶段的输出来预测正确的阴影。整个模型经过端到端的训练,产生的对抗网络(GAN)损失与pix2pix论文中使用的类似。
pix2pix论文:https://arxiv.org/abs/1611.07004
SynSin:从单个图像进行端到端视图合成
论文地址:https://arxiv.org/abs/1912.08804
视图合成的目标是在给定一个或多个图像的情况下生成场景的新视图。但是这可能很具有挑战性,需要从图像中理解3D场景。为了克服这个问题,当前的方法依赖于多图像,在ground-truth上训练或仅限于合成数据。作者提出了一种新颖的端到端模型,用于在测试时从单个图像进行视图合成,同时在没有任何ground-truth 的3D信息(例如深度)的真实图像上进行训练。
但是,投影的特征可能会有一些伪像(例如,图像的某些不可见部分现在在新视图中可见,并且需要渲染),为了解决此问题,论文作者使用了生成器来填充缺失的区域。然后对整个模型进行端到端的训练:L2损失,判别器损失和感知损失,而无需任何深度信息。在测试时,网络会拍摄图像和目标相对姿态,并以所需的视图输出图像。
从单反相机合成全局相干深度的动态场景新视图
论文地址:https://arxiv.org/abs/2004.01294
这篇论文的目的是在给定动态场景图像集合的情况下,从任意视角和时间合成图像,即由单个单反相机从多个位置,捕获的一系列图像。该方法可以从原始区域范围中的任意位置生成新颖的视图,还可以生成在不同时间横跨任何视图出现的动态内容(下图右侧)。使用单个相机即可完成此操作,而无需使用多视图系统或像先前方法的特定于人类的先验方法。
作者使用深度融合网络,结合目标视图的输入图像,将多视图(DMV)的立体深度与单视图(DSV)的深度相结合,生成了一个比例尺度不变和一个完全深度图。跨视图具有几何上一致的深度,可以使用自监督的渲染网络合成新颖的视图,该网络在缺少数据的情况下产生照片级逼真的图像,并具有对抗损失和重建损失。
STEFANN:使用字体自适应神经网络的场景文本编辑器
论文地址:https://arxiv.org/abs/1903.01192
本文提出一种在字符级别上直接修改图像中的文本同时保持相同样式的方法。
这分两个步骤完成。
1. 首先,一个名为FANnet的网络将我们要修改的源字符作为输入,并在保持结构一致性和源样式的同时输出目标字符。
2. 其次,着色网络Colornet获取第一阶段的输出和源字符并为目标字符着色,同时保留视觉一致性。对文本的每个字符执行此过程之后,将字符放置在喷绘的背景中,同时保持字符之间的正确间距。
MixNMatch:用于条件图像生成的多因子分离和编码
论文地址:https://arxiv.org/abs/1911.11758
MixNMatch是一种条件性GAN,能够在最少的监督(即从边界框标注到模型背景)的情况下,将背景、目标姿态、形状和纹理与真实图像区分开。然后,可以使用经过训练的模型来任意组合因子以生成新图像,包括sketch2color,cartoon2img和img2gif应用。
给定单个目标类别的图像集合,训练模型以将与每个图像相关的背景、目标姿态,形状和纹理因子同时编码到分离的潜在代码空间中,然后通过组合来自分离的代码空间图像来生成看起来真实的图像。四个编码器用于分别编码每个潜在代码。之后采样四个不同的潜在代码,并将其输入到FineGAN生成器中以分层生成图像,然后使用四个“图像代码对”判别器对模型进行训练,以优化编码器和生成器来匹配其联合的图像代码分布。
StarGAN v2:多域的多样化图像合成
论文地址:https://arxiv.org/abs/1912.01865
图像到图像转换(即更改图像的某些属性,例如头发颜色)的主要目标是提高生成图像的质量和多样性,同时在多域(一个域是指具有相同属性值的图像集,例如黑发)上保持高可伸缩性。鉴于现有方法仅解决了这些问题之一,导致或者在多样性上有限或在所有领域的模型上有限。StarGAN v2尝试使用风格代码来同时解决这两个问题,而不是第一个版本的StarGAN中的显式域标签。
StarGAN v2模型包含四个模块:
-
生成器,用于使用所需特定域的风格代码将输入图像转换为输出图像。
-
潜在编码器(或映射网络),为每个域生成风格代码,在训练过程中随机选择其中一个。
-
风格编码器可提取图像的风格代码,以允许生成器执行参考引导的图像合成
-
判别器可从多个域中区分真假(R / F)图像。
除生成器外,所有模块都包含多个输出分支,在训练相应域时会选择其中一个。然后使用对抗损失,风格重构来训练模型,以强制生成器在生成图像时利用风格代码。
GAN压缩:交互式条件GAN的高效架构
论文地址:https://yassouali.github.io/ml-blog/cvpr2020/
条件GAN(cGAN)为许多计算机视觉和图形应用程序提供了可控制的图像合成功能。但是,训练它们所需的计算资源比用于检测和识别的传统CNN的数量级大。例如,GAN需要比图像识别模型多10到500倍的计算量。为了解决这个问题,作者提出了一种基于蒸馏,通道剪枝和神经架构搜索(NAS)的GAN压缩方法,从而在保持相同性能的同时生成了压缩模型。
被提出的GAN压缩框架采用了一个经过预训练的生成器(被视为teacher),该生成器首先被提取成一个较小的“ 一劳永逸”的生成器,该生成器包含通过权值分配的所有可能的通道数,其中在每次迭代中为 student选择了不同的通道数。现在,为了在每一层选择正确的 student通道数,从一次性(student)生成器中提取了许多子生成器并进行了评估,从而创建了生成器候选池。最后,具有理想压缩比目标和性能目标(例如FID或mIoU)的最佳子生成器使用了一次性NAS,然后微调选定的生成器,从而生成最终的压缩模型。
用于图像生成的语义金字塔
论文地址:https://arxiv.org/abs/2003.06221
语义金字塔试图弥补判别模型和生成模型之间的差距。这是通过使用基于GAN的新颖模型完成的,该模型利用了预训练分类模型学习到的深度特征空间。给定从参考图像中提取的一组特征,该模型会生成各种图像样本,每个样本在分类模型的每个语义级别上都具有匹配的特征。
具体地,给定预训练的分类网络,GAN网络被设计为具有与分类网络相似架构的生成器。训练生成器的每一层以使其适应先前的层以及分类网络的相应层。例如,在接近输入的分类特征上对生成器进行条件调整,会得到与分类模型的输入图像相似的图像,并可能通过采样不同的噪声向量来探索此类图像的空间。另一方面,对较深层进行调节会导致生成的图像分布更广。该模型经过训练后会产生对抗损失,以生成逼真的图像,而多样性损失则可以生成具有不同噪声的多样化图像,以及将所生成图像的特征与参考图像进行匹配的重构损失。图像的不同区域可以使用掩码操作以不同的语义级别进行调节,可被用于在语义上修改图像。
分析和改善StyleGAN的图像质量
论文地址:https://arxiv.org/abs/1912.04958
在StyleGAN的第一个版本中,作者提出了一种替代的生成器体系架构,该体系架构能够生成高质量的图像,并且能够分离高级属性(例如,在人脸上进行训练时的姿态和身份)。这种新架构包括使用来自潜在空间的映射网络Z 和一个中间空间 W 以更紧密地匹配训练集中的特征分布,并避免出现在训练中的禁用组合 Z。使用自适应实例Normalization(AdaIN)层将中间潜在向量合并到生成器中,同时在每次应用AdaIN之前会添加均匀的噪声,并逐步进行训练。该论文已经在数据驱动的无条件生成图像建模中获得令人印象深刻的结果。但是,生成的图像仍然包含一些伪像,例如水斑和面部属性(如眼睛)的不变位置。
首先,为避免droplet 效应(AdaIN丢弃特征图中信息的结果),作者通过删除一些多余的操作,将噪声添加到样式的有效区域之外,将AdaIN替换为权值解调层,并且仅调整每个特征图的标准差。消除了渐进式GAN训练以避免基于MSG-GAN的面部属性的永久位置。最后,StyleGAN2对损失引入了新的正则化项,以在中间潜在空间的单个位置基于Jacobian矩阵实施更平滑的潜在空间插值。
对抗性潜在自动编码器
论文地址:https://arxiv.org/abs/2004.04467
自动编码器(AE)的特点是简单易行,并且能够通过同时学习编码器-生成器图来组合生成性和表示性的功能。但是,它们不具有与GAN相同的生成功能。被提出的对抗潜在自动编码器(ALAE)通过使用对抗性策略学习输出数据分布来保留GAN的生成特性,而AE架构则从数据中学习潜在分布以改善分离特性(即 StyleGAN的W中间潜在空间)。
ALAE体系架构将生成器G和判别符D分解为两个网络:F,G和E,D,其中F和G之间以及E和D之间的潜在空间被认为是相同的,并称为中间潜在空间 W。在这种情况下,映射网络F是确定性的,而E和G是随机的并取决于注入的噪声。这对网络(G,E)包含一个生成器-编码器网络,该网络可以自动编码潜在空间W,并经过训练以最大程度地减少这两个分布之间差异 Δ (例如MSE损失),即G输入处的分布和E输出处的分布。总体而言,通过交替优化GAN损失和Δ之间的差异来训练模型 。
注:这一个方向不是很明白,需要好好研究一下。