作者丨武广
学校丨合肥工业大学硕士生
研究方向丨图像生成
图像翻译这个领域的应用是相当的多,图像风格迁移、图像修复、图像属性变换、图像分割、图像模态的转换等都可以统称为图像翻译的任务。本文将介绍一个图像翻译中比较新颖和有趣的应用——图像的重定向,也就是对图像进行自然的放大和缩小而不影响图像的整体,这是区别于简单的图像拉伸和压缩的过程,而是通过图像到图像转换的过程来实现的。
本文将介绍的 InGAN 通过捕获图像的内部色块分布,实现了图像的扩充和拉伸,同时文章也是 ICCV 2019 的 Oral。
论文引入
每个自然图像都有其独特的内部统计数据:构成图像的小块,这些小块在图像中多次出现,从而也可以作为该图像的特异性的表示 [1] 。例如,假设根据一个输入图像,希望将其转换为形状,大小和纵横比完全不同的新图像。但是又要求不能扭曲其内部任何元素,将它们全部保留为其原始大小,形状,长宽比以及图像中相同的相对位置。这个过程可以由图 1 所示:
▲ 图1. 图像在保留内部元素下的拉伸
当放大图 1 中的水果摊图像时,每个水果盒中会添加更多的水果,同时保持每个水果的大小相同。反之亦然,当图像变小时,水果的数量变小,同时保持其大小和在图像中的相对位置。此外,请注意,目标图像不一定是矩形的。如果能够捕获并可视化了这种独特的图像特定小块分布,就可以将其映射到不同大小和形状的新目标图像(所有目标图像都具有与输入图像相同的内部小块分布) 。
如何才能做到这一点?满足这些标准首先是要求目标图像中的小块分布与输入图像中多个图像尺度上的小块分布相匹配,
分布匹配允许合成不同大小和形状的新目标图像。双向相似性 [2] 是目前实现该转换最先进的方法,双向相似性变换将目标图像限制为仅包含来自输入图像的色块(“视觉一致性”),输入目标应仅包含来自目标的色块(“视觉完整性”)。
因此,在目标图像中不会引入新的伪像,并且也不会丢失任何关键信息。InGAN 的设计目的在双向相似性的基础上进一步实现:
不仅要求所有输入色块都在输出中,而且还需要保持这些色块的频率相同;
通过匹配分布而不是单个补丁;
通过已训练的网络进行一次前向遍历可以生成任何大小/