InfinityGAN - Towards Infinite-Resolution Image Synthesis

BITChasel

已于 2023-08-31 21:10:16 修改

阅读量124

点赞数

文章标签：计算机视觉人工智能深度学习超分辨率重建图像处理

于 2023-08-31 20:27:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41826940/article/details/132605687

版权

目录

2.1 整体结构

2.2 结构合成器

2.3 纹理合成器

2.3 空间独立生成

2.4 网络训练

3. 实验结果

3.1 生成评价

3.2 对比实验与消融实验

1.简介

arxiv.org/pdf/2104.0396

解决的问题：如何使用生成模型，生成任意分辨率的图像

大视场图像

应用：spatial style fusion, multi modal outpainting, image inbetweening

特点：输入输出任意大小

242 个 patch 组成的 1024×2048 图像，由 InfinityGAN 独⽴合成，两种⻛格的空间融合。⽣成器在从 197×197 真实图像采样的101×101 个patch

有限的计算资源（例如，内存和训练时间）→ 限制输⼊感受野和输出⼤⼩ →

有限资源无监督学习隐式全局结构

重复纹理合成⽅法：高分但不真实

SinGAN，InGAN：可⽣成任意形状的图像，但不能很好推断结构关系

COCO-GAN：⽆法保持全局⼀致性

贡献

1. 空间融合图像不同分布的结构和纹理 → 灵活可控

2. ~~任意长度多模态修补 →~~ 任意形状输入

3. 并行计算 → 整个图像生成分为独立的补丁生成

2.网络框架

任意大图像可以通过全局和局部形式进行描述

全局：外观连贯固定，高层次构图和内容

局部：邻近的结构和纹理，纹理取决于物体结构，材料特性和光照

2.1 整体结构

两部分：结构合成器Gs，以及纹理合成器GT。

输入：4个潜在变量 → 控制图像合成。

1）全局潜在变量zg → Gs和GT → 强化整个图像的整体外观

2）局部潜在编码zl → 对图像块的局部变化进行建模

3）坐标网格c → 辅助Gs为指定的每个图像块渲染结构

4）zn为Gt每一层的附加信息 → 对zg中不存在的局部细粒度细节建模

2.2 结构合成器

使⽤坐标对⼦区域进⾏采样 → 创建局部结构特征

坐标网络

三角函数保证数值稳定，垂直方向快速饱和

防止周期重复 → 分集损失

神经隐式函数独⽴为每个输⼊查询⽣成输出 → 训练不稳定、收敛慢 → 特征展开

2.3 纹理合成器

基于StyleGAN2

输入：固定常数替换为zS

zn随机噪声 → 对细粒度的随机纹理建模

删除所有零填充

1.零填充在训练期间具有⼀致的模式，会被⽣成器记忆，合成时受到看不⻅的填充模式影响

2.输⼊z时，特征中⼼没有从 padding 接收到预期坐标信息，输出中⼼出现⼤量重复纹理

3.阻碍了GT⽣成patch组合

2.3 空间独立生成

神经隐函数天然⽀持每个空间位置的独⽴推理

恒定内存

合成与任意大小的zS一致的输出

StyleGAN2模糊内核⼤⼩从 4 缩⼩到 3 → GS生成的zS与zl对齐 → 一对一映射

2.4 网络训练

非饱和逻辑损失

R1正则化

路径长度损失

预测patch垂直位置辅助任务损失

3. 实验结果

3.1 生成评价

数据：Flickr-Landscape数据集45w，Place365，62500，FlickrScenery，54710

训练：197*197下采样为101*101，80w代

度量标准： FID、ScaleInv FID

（将生成高分辨率图像下采样为训练数据的分辨率大小，然后计算FID）

NCI：⽤相同形状的zl替换原始 StyleGAN2 的恒定输⼊ → ⽣成具有不同zl⼤⼩的不同输出⼤⼩的图像

更好的整体外观

多样性：在同⼀坐标上⽤不同局部合成不同样本

空间⻛格融合

3.2 对比实验与消融实验

并⾏处理

parallel batching: 8192×8192 pixels

3.3 应用

Outpainting via GAN Inversion

绘制远距离区域

红色为GT

Inbetweening

多模式Outpainting

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
InfinityGAN - Towards Infinite-Resolution Image Synthesis

解决的问题：如何使用生成模型，生成任意分辨率的图像大视场图像应用：spatial style fusion, multi modal outpainting, image特点：输入输出任意大小242 个 patch 组成的 1024×2048 图像，由 InfinityGAN 独⽴合成，两种⻛格的空间融合。⽣成器在从 197×197 真实图像采样的101×101 个patch有限的计算资源（例如，内存和训练时间）→ 限制输⼊感受野和输出⼤⼩ →有限资源无监督学习隐式全局结构。
复制链接

扫一扫

BITChasel CSDN认证博客专家 CSDN认证企业博客

码龄6年

6: 原创

167万+: 周排名

224万+: 总排名

1033: 访问

: 等级

62: 积分

1: 粉丝

1: 获赞

3: 评论

3: 收藏

私信

关注

热门文章

最新评论

图像超分辨 Supper-Resolution
CSDN-Ada助手: 恭喜您撰写了第5篇博客，题为“图像超分辨 Supper-Resolution”。非常感谢您持续创作，分享了关于图像超分辨的知识。您的博客内容非常有深度和见解，让我对图像超分辨有了更深入的理解。在下一步的创作中，或许您可以考虑探讨一些实际应用场景下的图像超分辨技术，比如在医学图像处理、视频增强等领域中的应用。这样的话，读者们能够更直观地了解超分辨技术在实际中的作用和影响。再次感谢您的辛勤努力，并期待您未来更多精彩的博客内容！
[CVPR2021] GFP-GAN: Towards Real-World Blind Face Restoration with Generative Facial Prior
CSDN-Ada助手: 恭喜您撰写第6篇博客！标题中的"GFP-GAN: Towards Real-World Blind Face Restoration with Generative Facial Prior"引人注目，让人充满期待地想要进一步了解。您不仅持续创作，而且选择了一个令人着迷的主题。希望您能分享更多关于这项研究的细节，例如该方法如何应对真实世界中的盲目人脸修复问题。此外，如果您愿意，我希望您能探索一些与该主题相关的实际应用场景，例如面部恢复对于社交媒体图像的影响。期待您未来的创作，谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。