论文阅读——High-Fidelity Pluralistic Image Completion with Transformers

原文连接:High-Fidelity Pluralistic Image Completion With Transformers (ICCV 2021). Ziyu Wan, Jingbo Zhang, Dongdong Chen, Jing Liao [Paper] [Project] [Code]

本文创新点:将transformer用于图像修复,实现多元化修复。

主要思想:将修复过程分成两个步骤,用transformer进行外观重建(全局结构+粗纹理),再用CNN对细节纹理补全。

目录

网络结构

损失函数

重构损失(L1):

对抗损失:

总体损失:

 实验结果


网络结构

首先将256*256的图像降至32*32(或48*48),然后用k-means对像素进行聚类成512种颜色(由→512*3),将图像转换成离散的序列,L为长度,再通过embedding将其投影到d-维度特征向量中。将特征向量和位置编码输入到transformer中,输出mask位置的像素索引。

 本文采用的transformer(只用解码器)是双向注意力,使得每个mask都能获得全局信息。

Transformer的优化目标:是在所有观察到的区域条件下最小化的负对数似然。

 其中,表示离散化输入中mask(缺失区域)的索引,K 表示mask标记的数量,表示已知区域,θ为transformer的参数。

第一阶段的最终输出是低分辨率的RGB修复图,然后将其上采样至原分辨率大小,并和原分辨率缺损图按通道维度拼起来,送入encoder-decoder架构的CNN中进行细节纹理修复。

损失函数

重构损失(L1):

对抗损失:

总体损失:

 实验结果

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值