论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding

最新推荐文章于 2024-05-11 20:48:12 发布

keep--learning

最新推荐文章于 2024-05-11 20:48:12 发布

阅读量1.1k

点赞数 1

分类专栏：论文文章标签：论文阅读 transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51426525/article/details/128292409

版权

论文专栏收录该内容

34 篇文章 2 订阅

订阅专栏

论文链接：

[2203.00867] Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (arxiv.org)

代码链接：

DQiaole/ZITS_inpainting: Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (CVPR2022) (github.com)

本文创新点：使用transformer对图像结构进行修复，作为修复图像的辅助信息；

网络结构

Transformer Structure Restoration

为了减少计算复杂度，交替使用轴向注意力和标准注意力。标准的注意力的计算复杂度为，而轴向注意力的计算复杂度为。

轴向注意力

其中，、为X 的第 i、j 行特征向量，、为X 的第 i、j 列特征向量，为第 i 行和第 j 行之间的相对位置编码。

使用二元交叉熵进行优化，

其中，和Il为ground truth。

Simple Structure Upsampler

首先对线条进行上采样，然后通过网络的泛化得到高分辨率的边缘图。

ZeroRA Structure Enhanced Inpainting

Fourier CNN Texture Restoration (FTR)

FTR主要由下采样、自编码器和上采样三个部分构成。关键模块是Fast Fourier Convolution (FFC) layer，主要有两个分支：一个是局部分支使用常规卷积，另一个是全局分支在快速傅里叶变换后对特征进行卷积。

Structure Feature Encoder (SFE)

SFE是一个自编码器模型，主要由 3 层下采样门控卷积（编码器）、3层带扩张卷积的残差块和3层上采样门控卷积（解码器）。门控卷积选择性地传输有用的特征，输入到 FTR。

其中，S为最后一个残差块和3个解码器层从粗到精的特征映射。

Masking Positional Encoding (MPE).

用全为1的3*3卷积核计算每个位置的掩码距离Ddis，通过正弦位置编码（SPE）对距离进行裁剪和映射得到

其中，i为通道索引，Dmax=128，d=64，为Pdis总通道数。

对于掩码方向，用4个不同的二进制卷积核来获得4通道one-hot向量。

Ddir 的值取决于哪个卷积核首先覆盖掩码区域。Ddir表示从掩码位置到未掩码位置的最近方向。然后将Ddir投影到具有d维特征的参数空间。

Zero-initialized Residual Addition (ZeroRA)

对于给定的输入特征x，经过跳跃连接，得到输出特征x' 。

其中，α从零初始化。

在本文中用ZeroRA 将结构信息从SFE添加到FTR

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding

本文创新点：使用transformer对图像结构进行修复，作为修复图像的辅助信息；发表在2022CVPR
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。