U-GAT-IT

最新推荐文章于 2023-11-30 10:40:59 发布

Jiabao0328

最新推荐文章于 2023-11-30 10:40:59 发布

阅读量1.2k

点赞数

最近在研究风格迁移，看到了这篇文章很不错，将注意力机制加入cyclegan中，实现实时局部迁移，不用在单独去训练一个分割网络。论文上展示的效果也很不错。

摘要

文章提出了一种新的图像转换无监督方法，该方法在端到端之间引入了一个新的注意模块和一个新的可学习的归一化方法。注意力模块将引导模型根据辅助分类器获得注意力图，将重点关注源域和目标域之间的不同区域。以前的注意力方法不能表现出域间几何变化，我们的模型可以转换两域之间整体的变化和大的局部形状变化。此外，我们新的AdaLIN(Adaptive Layer-Instance Normalization)函数帮助我们的注意力引导模型灵活地控制形状和纹理的变化量，通过数据集学习参数。实验显示该方法的优越性，与现有最好的方法比较具有固定的网络结构和超参数。

1.说明（Introduction）

图像迁移的目的是学习一个能够在两个域中的映射函数。这一领域引起很多人关注，主要是能应用于图像绘制，超分辨率，着色和风格迁移。当有成对的样本时，映射模型可以用CGAN或者是一个简单的回归模型。在无监督中没有配对的数据集，基本使用的共享潜在空间和循环一直假设（cyclegan），这些任务已经进一步发展到处理任务的多种形式。

尽管有这些进步，以前的方法显示了性能取决于形状域和纹理域之间的变化量。（比如转换为梵高艺术照和人像转换）中，他们的局部迁移是成功的，但是在猫狗转换等具有大的形状变化的任务时是不成功的。因此，预处理步骤像图像裁剪，对齐通常需要通过限制数据分布的复杂性来避免这些问题。此外，现有的方法DRIT无法同时获得两幅图像在固定的网络结构和超参数的图像迁移中保持其形状变化。网络结构和超参数的设置需要在特定的数据集中调整。

在这项任务中，我们提出了一种新的无监督图像迁移端到端的方法，它包含了注意力模块和一个新的可学习的归一化函数。之前的工作不允许改变迁移对象的形状，因为背景容易迁移到目标上。与这些工作不一样的是，我们的模型指导迁移更重要的区域而忽略通过区分源域和目标域之间的小区域，通过辅助分类器来得到注意力图谱。这些注意力图谱被嵌入到生成器和判别器当中，以关注语义上语义上的重要性，从而促进形状的迁移。然而，在生成器中注意力图诱导对两域之间有明确区分的区域进行关注，在鉴别器中注意力图有助于在目标域中对真假图片进行微调。

除了注意力机制，我们还发现归一化函数的选择在具有不同形状和纹理变化量的不同数据集上，对迁移的结果的质量具有重要影响。受启发于batch-instance normalization（BIN），我们提出了AdaLIN（Adaptive Layer-Instance Normalization），它的的参数在训练过程中,自适应选择学习IN与LN之间的适当比率。AdaLIN帮助我们的注意力模型灵活控制纹理和形状的变化。因此，我们的模型无需修改模型架构和超参数，不仅可以执行图像迁移的整体变化，也支持大物体的形状变化。在实验中，与现有最好的方法进行比对，不仅包括风格迁移也包括对象迁移。

2.相关工作（Related works）

2.1.生成对抗网络

GAN在各种图像生成领域取得了令人印象深刻的效果，图像修复，图像迁移等工作。在训练中，生成器的目的是生成逼真的图像去欺骗鉴别器，而鉴别器的任务是去区分生成的图像是否是真实图像。这篇文章使用GAN来学习转换从一个域到另一个不同的域中，使用未配对的数据集。

2.2 image-to-image translation

Isola等人提出CGAN，比wang等人提出的pix2pix的更具高分辨率。最近有各种各样的尝试在未配对的数据集中去学习图像迁移，cyclegan为了增强一对一的映射首次提出循环一致性损失。UNIT假设有一个潜在的空间去处理无监督的图像迁移，然而这个方法只有在两个域当中有相似的模式才会表现的好。MUNIT使多对多的映射成为可能，通过将图像分解成不变域的内容编码和捕获特定域属性的风格编码。