PD-GAN: Probabilistic Diverse GAN for Image Inpainting

多样性驱动的图像修复：概率图与软硬映射

最新推荐文章于 2025-09-18 10:20:52 发布

原创

最新推荐文章于 2025-09-18 10:20:52 发布 · 3.2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #机器学习

本文探讨了图像修复领域的创新，提出使用概率图区分边缘和内部像素的多样性，通过Hardmap和Softmap生成不同确定性和多样性的修复结果。模型利用随机噪声和先验信息，配合感知多样性损失，生成具有丰富细节的多样修复图像。

最近对于image inpainting的研究开始向生成结果的多样性开始转变。传统image inpainting方法虽然也可以生成貌似真实的完整图像，但是这些模型有一个根本性的问题：它们默认了输入的缺失图像应该对应某一个完整图像，然后将生成的图像与真实的完整图像通过重建误差来优化网络。这显然是不合理的。就如艺术品修复一样，对于同一件艺术品，不同的艺术家对其修复的结果肯定是不一样的，但是这些修复结果都是合理的(艺术家自身水平达标的前提下)，因此，如果将缺失图像用 $I_m$ 来表示，完整图像用 $I_g$ 表示，模型学习的应该是一个概率表示 $p(I_g|I_m)$ 。

本文基于一个很直观的想法：越靠近mask边缘的缺失像素点，其应该越与mask边缘的已知像素有关。换句话说，越靠近mask边缘的缺失像素点，其多样性应该越小，越远离边缘的缺失像素点，其多样性应该越大。依照这个想法，作者通过构建网络将mask图(原本缺失处是0，观测处是1)生成一个概率图，依照这个概率图来确定生成像素是应该更加确定还是更加多样。
此外，本文与传统方法的另一个不同点在于，为了获得生成结果的多样性，本文并不是将图像经过编码后再解码来生成的，而是从随机噪声开始生成(这样在测试的时候对于同一个测试图像，取不同的噪声可以产生不同的修复结果)，然后在生成的过程中不断的添加先验信息(由某个预训练的inpainting模型生成的完整图像)，最终生成一个多样性的完整图像。并且为此作者还提出了一个专门配套的perceptual diversity loss来保证生成的多样性。
给出本文的流程图：
在这里插入图片描述
网络是经典的双阶段的模型，第一阶段预训练一个inpainting网络，可以产生比较粗糙的修复图像。之后本文的网络先是输入一个随机噪声，通过开始的几步卷积获得一个上采样结果，之后在每一个SPDNorm Residual Blocks中将预训练模型的粗糙修复结果(先验信息)和对应的mask输入到其中，不断进行特征的生成，最终随机噪声在不断添加的先验信息的加持下，生成理想的结果。SPDNorm Residual Blocks是本文的核心点，其中分为两部分，一部分是Hard SPDNNorm，其中的 $D^h$

最低0.47元/天解锁文章