论文阅读——Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

原文链接:Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting (CVPR 2019). Zeng, Y., Fu, J., Chao, H., & Guo, B. [Paper][Code]

本文创新点:

  1. 提出了金字塔上下文编码器(Pyramid-context encoder),利用注意力从高层语义到低层语义,逐步学习区域相似性,并填充特征图。
  2. 提出了多尺度解码器(Multi-scale decoder),在不同尺度上生成图像。
  3. 提出了注意力转移网络(Attention Transfer Network),学习高层特征图缺失区域和已知区域之间的相似性,并转移到低层特征图中。

 

网络结构

金字塔上下文编码器网络(PEN-Net)由三部分组成:金字塔上下文编码器(a)、多尺度解码器(b)和判别器(d)。

 Pyramid-context encoder

金字塔上下文编码器利用注意力学习高层特征图的区域相似性,并指导下一层特征区域相似性学习。

 

其中,f 为ATN操作。

Attention Transfer NetworkATN

首先,从 中提取patches,并计算缺失区域和已知区域的余弦相似度

其中, 代表 中已知区域的第i个patch, 代表 中缺失区域的第j 个patch。

然后,通过softmax层,获得相应的注意力分数:

 

最后,填充其相邻的低级特征图中的缺失区域:

其中, 代表 中已知区域的第i 个patch, 代表缺失区域需要填充的第j个patch。

Multi-scale decoder

多尺度解码器的输入为编码器的特征和ATN重构的特征,输出为 ,…,

 

其中,g 代表转置卷积运算,⊕代表特征拼接。

损失函数

Pyramid L1 losses

Pyramid L1 losses是每个尺度上预测图像与真实图像损失之和。

其中,h为1*1的卷积,将 解码成相同大小的RGB图像, 是缩放到与 同样大小的真实图像。

总体损失

其中, 为对抗损失。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值