目录
1.简介
大视场图像
应用:spatial style fusion, multi modal outpainting, image inbetweening
特点:输入输出任意大小
242 个 patch 组成的 1024×2048 图像,由 InfinityGAN 独⽴合成,两种⻛格的空间融合。⽣成器在从 197×197 真实图像采样的101×101 个patch
有限的计算资源(例如,内存和训练时间)→ 限制输⼊感受野和输出⼤⼩ →
有限资源无监督学习隐式全局结构
重复纹理合成⽅法:高分但不真实
SinGAN,InGAN:可⽣成任意形状的图像,但不能很好推断结构关系
COCO-GAN:⽆法保持全局⼀致性
贡献
2. 任意长度多模态修补 → 任意形状输入
3. 并行计算 → 整个图像生成分为独立的补丁生成
2.网络框架
任意大图像可以通过全局和局部形式进行描述
全局:外观连贯固定,高层次构图和内容
局部:邻近的结构和纹理,纹理取决于物体结构,材料特性和光照
2.1 整体结构
两部分:结构合成器Gs,以及纹理合成器GT。
输入:4个潜在变量 → 控制图像合成。
1)全局潜在变量zg → Gs和GT → 强化整个图像的整体外观
2)局部潜在编码zl → 对图像块的局部变化进行建模
3)坐标网格c → 辅助Gs为指定的每个图像块渲染结构
4)zn为Gt每一层的附加信息 → 对zg中不存在的局部细粒度细节建模
2.2 结构合成器
使⽤坐标对⼦区域进⾏采样 → 创建局部结构特征
坐标网络
三角函数保证数值稳定,垂直方向快速饱和
防止周期重复 → 分集损失
神经隐式函数独⽴为每个输⼊查询⽣成输出 → 训练不稳定、收敛慢 → 特征展开
2.3 纹理合成器
基于StyleGAN2
输入:固定常数替换为zS
zn随机噪声 → 对细粒度的随机纹理建模
删除所有零填充
1.零填充在训练期间具有⼀致的模式,会被⽣成器记忆,合成时受到看不⻅的填充模式影响
2.输⼊z时,特征中⼼没有从 padding 接收到预期坐标信息,输出中⼼出现⼤量重复纹理
3.阻碍了GT⽣成patch组合
2.3 空间独立生成
神经隐函数天然⽀持每个空间位置的独⽴推理
恒定内存
合成与任意大小的zS一致的输出
StyleGAN2模糊内核⼤⼩从 4 缩⼩到 3 → GS生成的zS与zl对齐 → 一对一映射
2.4 网络训练
非饱和逻辑损失
R1正则化
路径长度损失
预测patch垂直位置辅助任务损失
3. 实验结果
3.1 生成评价
数据:Flickr-Landscape数据集45w,Place365,62500,FlickrScenery,54710
训练:197*197下采样为101*101,80w代
度量标准: FID、ScaleInv FID
(将生成高分辨率图像下采样为训练数据的分辨率大小,然后计算FID)
NCI: ⽤相同形状的zl替换原始 StyleGAN2 的恒定输⼊ → ⽣成具有不同zl⼤⼩的不同输出⼤⼩的图像
更好的整体外观
多样性:在同⼀坐标上⽤不同局部合成不同样本
空间⻛格融合
3.2 对比实验与消融实验
并⾏处理
parallel batching: 8192×8192 pixels
3.3 应用
Outpainting via GAN Inversion
绘制远距离区域
红色为GT
Inbetweening
多模式Outpainting