Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting论文笔记

最新推荐文章于 2024-05-18 13:27:14 发布

Magic__Conch

最新推荐文章于 2024-05-18 13:27:14 发布

阅读量487

点赞数 1

分类专栏：图像填补文章标签：深度学习 cnn 计算机视觉

本文链接：https://blog.csdn.net/weixin_43399489/article/details/125852449

版权

7 篇文章 1 订阅

订阅专栏

IEEE Conference Proceedings arXiv: Computer Vision and Pattern Recognition Jan 2019
在这里插入图片描述

解决的问题与改进

现有方法不能结合直接可视信息和深层语义信息。

patch search等方缺少法高层语义一致性的理解。
generative models的stacked constructions和poolings存在over-smooth, lack of visually-realistic等问题。

以UNet为骨架,能够在image-level 和 feature-level上填充缺失区域.

在这里插入图片描述

每一层的𝜓由这一层的feature map - 𝜙 和更高一层的𝜓共同经过ATN（式中f）得到。

在这里插入图片描述
计算全部的patch后，就可以得到 $ψ^{l−1}$ （上面i的所有计算都可以公式化为卷积计算以进行端对端的训练）。

通过四组不同速率的膨胀卷积来聚合多尺度的上下文信息，这样的设计保证了最终重构特征的结构与环境的一致性，提高了测试的修复效果。
在这里插入图片描述

在这里插入图片描述
其中，由ATN生成的重建特征为缺失区域编码更低层级的信息，有利于使用细粒度的细节生成视觉上逼真的结果；由卷积提取的紧凑的latent特征能在缺失之外区域找不到物体时，合成新物体。
语义一致靠深层卷积，纹理一致靠ATN重建的浅层特征。

使用PatchGAN（Image-to-Image Translation with Conditional Adversarial Networks）作为本文的discriminator，同时使用光谱归一化来稳定训练。
本文中，pyramid-context encoder和multi-scale decoder构成Generator。

分析pyramid L1 Loss和ATN这两个网络构成部分的作用。

Pyramid L1 Loss损失函数在每个尺度逐步细化，pyramid loss有利于逐层解码紧凑特征。
在这里插入图片描述

跨层的注意力传播机制给U-Net骨架带来改善。
在这里插入图片描述

第一行为不使用任何注意力机制的纯U-Net网络，第二行是没有对更深层guidance的CA方法，第三层是ATN应用在U-Net架构上的结果。

关注