论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022

keep--learning

已于 2023-02-19 10:21:54 修改

阅读量1.2k

点赞数 6

分类专栏：论文文章标签：论文阅读深度学习人工智能

于 2022-11-20 11:00:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51426525/article/details/127942380

版权

论文专栏收录该内容

34 篇文章 2 订阅

订阅专栏

原文链接：

[2205.05076] Reduce Information Loss in Transformers for Pluralistic Image Inpainting (arxiv.org)

代码链接：

liuqk3/PUT: Paper 'Reduce Information Loss in Transformers for Pluralistic Image Inpainting' in CVPR2022 (github.com)

本文创新点：

提出了patch-based auto-encoder(P-VQVAE)，在VQVAE的基础上将patch作为输入；
提出了Un-Quantized Transformer(UQ-Transformer)，直接将P-VQVAE编码器的特征作为输入，不进行量化，减少信息的损失。

目录

patch-based encoder

Multi-Scale Guided Decoder

训练UQ-Transformer

网络结构

网络整体由P-VQVAE和UQ-Transformer两个部分构成。

P-VQVAE

作用：避免输入下采样的信息丢失，同时保证transformer的计算效率。

P-VQVAE主要由三个部分组成：patch-based encoder、dual-codebook 和multi-scale guided decoder。

patch-based encoder

编码器由几个线性层构成，首先将图像划分成个patch（r为patch的大小，默认为8），然后将每个patch展平，并投影到一个特征向量中。特征向量可以用下式表示：

其中，C为特征向量的维度（默认为256），ε(•)为编码操作。

对于每个patch，如果包含缺失像素，则成为masked patch，否则为unmasked patch。

Dual-Codebook

双码本由两个部分构成，负责unmasked patch特征向量的映射，负责masked patch特征向量的映射（K和K'为潜在向量的个数）。在测试阶段，只用码本e去修复缺失区域，码本e'是不用的。

其中，m↓为1代表unmasked patch，0代表masked patch，㊀代表元素相减，

，为特征向量的量化向量和tokens。

Multi-Scale Guided Decoder

设为transformer修复的token，是基于码本中检索到的量化向量，

为修复图像，为输入的掩码图像。

解码器有两个分支：一个是从量化向量开始的主分支，使用几个反卷积层来生成修复图像，另一个是参考分支，从掩码图像中提取多尺度特征图。参考分支的主要作用就是保证掩码图像中已有的像素值保持不变。

对于一次掩码和二次掩码以外的特征，使用原始特征；对于二次掩码部分的区域，使用量化后的特征，用来训练码本e。

参考分支的特征通过Mask Guided Addition (MGA)与主分支进行特征融合：

其中，是主分支的特征，是参考分支的特征，大小为。

训练P-VQVAE

在训练P-VQVAE的时候，会用随机掩码m'去除中的一些像素当做参考分支的输入。

训练损失

为commitment loss，主要是约束encoder的输出和embedding空间保持一致，以避免encoder的输出变动较大（从一个embedding向量转向另外一个）。

为codebook loss，sg指的是stop gradient操作，这意味着这个L2损失只会更新embedding空间，而不会传导到encoder。在实际操作中使用指数移动平均（exponential moving averages，EMA）来更新embedding空间，采用EMA这种更新方式往往比直接采用L2损失收敛速度更快。在每次迭代 t 时，潜在向量更新为

其中，为中分配给的特征向量，为为特征向量的个数，γ为衰减参数，实验中设为0.99。

UQ-Transformer

Transformer的输入是encoder输出的特征，而不是离散的token，输出是masked token属于码本中向量的概率，目的是避免量化引入信息损失。

训练UQ-Transformer

在训练transformer时，需要将30%的特征向量随机量化为码本中的潜在向量，然后输入到transformer中。因为在测试阶段只有第一次输入的特征是编码器输出的特征，随着迭代进行，越来越多的掩码区域被码本中的特征替代。

其中，，为ground-truth tokens。

消融实验

第二张图为：用卷积编码器代替线性编码器；

第三张图为：只使用一个码本进行训练、测试；

第四张图为：解码阶段不使用参考分支；

第五张图为：输入transformer中的特征为tokenize的，而不是编码器输出的特征；

第六张图为：训练transformer时，没有将特征向量随机量化为码本中的潜在向量。

VQVAE参考生成模型之VQ-VAE - 知乎 (zhihu.com)

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
论文阅读——Reduce Information Loss in Transformers for Pluralistic Image Inpainting-CVPR 2022

为commitment loss，主要是约束encoder的输出和embedding空间保持一致，以避免encoder的输出变动较大（从一个embedding向量转向另外一个）。Transformer的输入是encoder输出的特征，而不是离散的token，输出是masked token属于码本中向量的概率，目的是避免量化引入信息损失。个patch（r为patch的大小，默认为8），然后将每个patch展平，并投影到一个特征向量中。中提取多尺度特征图。为特征向量的个数，γ为衰减参数，实验中设为0.99。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。