【PaddlePaddle】【论文复现】U-GAT-IT

最新推荐文章于 2022-12-07 20:52:47 发布

iRiven

最新推荐文章于 2022-12-07 20:52:47 发布

阅读量396

点赞数

分类专栏：深度学习文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/iRiven/article/details/107833193

版权

【PaddlePaddle】【论文复现】Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

论文阅读

论文阅读

ABSTRACT

文章提供一种新的无监督图片翻译（风格迁移之类）的方法，主要应用了一种新的注意力单元和一种新的归一化函数：

attention module 与之前的注意力机制方法不同处理图片之间的geometric有所不同，论文使用辅助分类器得到的注意力特征图对图片需要整体的风格改变和large shape的改变都能起到较好的作用；
Adaptive Layer-Instance Normalization 文章提出的AdaLIN函数可以更灵活地控制形状(shape)和上下文语义(texture)因为依赖数据集学习参数而引起的较大的变化。
代码： https://github.com/znxlwm/UGATITpytorch；

INTRODUCTION

图像到图像的翻译旨在学习一种将图像映射到两个不同领域的功能。该话题因其在图像修复等领域的广泛应用而受到机器学习和计算机视觉领域研究者的广泛关注。尽管取得了些进展，但先前的方法由于domains之间shape和texture的变化量而显示出性能差异。例如，它们对于映射局部纹理的风格迁移任务是成功的，但是对于在wild images中具有较大形状变化的图像翻译任务通常是不成功的。因此，通常需要预处理步骤，例如图像裁剪和对齐到达限制数据分布的复杂性以避免这些问题。此外，诸如DRIT 的现有方法，其图像翻译不能既保持shape，又能改变具有固定网络架构和超参数的形状。而且网络结构或超参数设置需要针对特定的数据集。

在这项工作中，文章提出了一种新的无监督图像到图像的翻译方法，该方法以端到端的方式结合了一个新的注意力模块和一个新的可学习的归一化函数。文章的模型通过基于辅助分类器获得的注意图区分源域和目标域来引导翻译关注更重要的区域而忽略次要区域。这些注意力图被嵌入到生成器和鉴别器中，以聚焦于语义上重要的区域，从而促进形状变换。虽然生成器中的注意图会将焦点集中在明确区分两个域的区域，但鉴别器中的注意图会通过关注差异来帮助微调目标域中真实图像和虚假图像的区分。除了注意机制之外，文章还发现，对于形状和纹理变化量不同的各种数据集，归一化函数的选择对转换结果的质量有显著影响。受批量实例归一化(BIN) 的启发，我们提出了自适应层属性归一化(AdaLIN)，其参数是在训练期间通过自适应地选择实例归一化(IN)和层归一化(LN)之间的适当比率从数据集学习的。AdaLIN功能帮助我们的注意力导向模型灵活控制形状和纹理的变化量。因此，文章的模型在不修改模型架构或超参数的情况下，可以执行图像翻译任务，不仅需要整体改变，而且也需要大的形状变化。在实验中，文章展示了所提出的方法与现有的最先进的模型相比的优越性，不仅在style transfer上，而且在object transfiguration上。

MODEL

network architecture

文章的目标是训练一个函数 $G_{s \to t}$ ，仅使用从每个domain提取的不成对样本，将图像从源域（source domain） $X_{s}$ 映射到目标域（target domain） $X_{t}$ 的测试。文中的框架由两个生成器组成 $G_{s \to t}$ 和 $G_{t \to s}$ 和两个鉴别器 $D_{s}$ 和 $D_{t}$ 。文章将注意力模块集成到生成器和鉴别器中。鉴别器中的注意力模块引导生成器关注对生成真实图像至关重要的区域。生成器中的注意模块将注意力放在与其他域不同的区域。在这里，文中只详细介绍了 $G_{s \to t}$ ， $G_{t \to s}$ 反之亦然。

Gengerator

$x\in\{X_{s},X_{t}\}$ 代表来自source和target的样本。其中model $G_{s \to t}$ 由编码器 $E_{s}$ 、解码器 $G_{t}$ 以及一个辅助分类器 $\eta_{s}$ 组成， $\eta_{s}$ 表示 $x$ 来自于 $X_{s}$ 的概率。 $E_{s}^{k}(x)$ 代表编码器中第 $k$ 张注意力图，其中 $E_{s}^{k_{ij}}(x)$ 表示第 $(i, j)$ 处的值。 $\eta_{s}$ 是用来学习source中第 $k$ 张特征图的权重， $w_{s}^{k}$ ，其主要通过全局平均池化和全局最大池化得到， $\eta_{s}(x)=\sigma(\sum_{k} w_{s}^{k}\sum_{ij}E_{s}^{k_{ij}}(x))$ 。通过 $w_{s}^{k}$ 便能求注意力特征图 $a_{s}(x)=w_{s}*E_{s}(x)=\{w_{s}^{k}*E_{s}^{k}(x)|1\le k\le n \}$

最低0.47元/天解锁文章

iRiven

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【PaddlePaddle】【论文复现】U-GAT-IT

【PaddlePaddle】【论文复现】Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation论文阅读ABSTRACTINTRODUCTIONMODELGengeratorDiscriminatorLOSS FUNCTIONEXPERIMENTAL RESULTSThe detail of architectureSome re
复制链接

扫一扫

专栏目录