【PaddlePaddle飞桨复现论文】【U-GAT-IT】(一)论文阅读

论文复现课程链接为:https://aistudio.baidu.com/aistudio/education/group/info/1340

U-GAT-IT算法源自论文U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

模型地址:https://github.com/znxlwm/UGATIT-pytorch

简介

U-GAT-IT是一种 端到端的 无监督 图像到图像转换方法

研究背景

图像到图像的翻译(Image-to-Image Translation)旨在学习两个不同域中图像的映射,包括图像修复,超分辨率,灰度图着色,风格迁移。当给出配对样本时,可以使用条件生成模型,以监督方式训练映射模型,在没有配对数据的无监督环境下,需要进行多项工作,例如使用共享潜在空间翻译图像(Liu et al.(2017))和周期一致性假设(Kim et al.(2017); Zhu等人(2017))等。

问题发现
先前的方法显示出性能差异,具体取决于域之间形状和纹理的变化量。例如,它们对于映射局部纹理(例如photo2vangogh和photo2portrait)的样式转换任务是成功的,但通常对于野外图像中形状变化较大的图像翻译任务(例如,selfie2anime和cat2dog)而言是不成功的。因此,通常需要通过限制数据分布的复杂度来避免图像分割和对齐等预处理步骤(Huang et al.(2018); Liu et al.(2017))。此外,现有的方法(例如DRIT)(Lee et al.(2018))不能通过固定的网络架构获得既保留形状的图像翻译(例如horse2zebra)也无法获得改变形状的图像平移(如cat2dog)的理想结果。网络结构或超参数设置需要针对特定的数据集进行调整。

基线模型

CycleGAN (Zhu et al. (2017))
UNIT(Liu et al. (2017))
MUNIT (Huang et al. (2018))
DRIT (Lee et al. (2018))
AGGAN (Mejjati et al.(2018))
CartoonGAN (Chen et al. (2018))

突出贡献

  • 新的注意力模块
  • 新的归一化函数AdaLIN
  • 注意力模块通过基于辅助分类器获得的注意力图,区分源域和目标域,帮助模型知道在何处进行密集转换
  • AdaLIN函数使得注意力引导模型灵活地控制形状和纹理的变化量,而无需修改模型架构或超参数

AdaLIN

AdaLIN是由AdaIN和LN结合而来。在进行特征的风格转换时,常用的方法是Whitening and Coloring Transform (WCT),但WCT需要计算协方差矩阵和逆矩阵,消耗的计算资源很多,因此作者使用AdaIN来代替。由于AdaIN假设不同的特征通道是不相关的,因此计算会快很多。而LN则会考虑不同特征间的相关性。但LN只考虑了feature map的全局统计信息,导致有时候它不能保留源域的内容结构信息。因为文章提出了AdaLIN这种归一化方式用来选择性地保留或更改内容信息。
在这里插入图片描述

CAM(类别激活图)

CAM是一个帮助我们可视化CNN的工具。使用CAM,我们可以清楚的观察到,网络关注图片的哪块区域。
在这里插入图片描述

类别激活图仅仅是在不同空间位置处存在这些视觉图案的加权线性和。 通过简单地将类激活映射上采样到输入图像的大小,我们可以识别与特定类别最相关的图像区域。

模型结构

U-GAT-IT,是无监督模型,训练时不需要成对图像,由两套GAN系统循环图像转换组成,故其有两套生成器和判别器

  • 将图像从源域到目标域转换
  • 将图像从目标域向源域转换

U-GAT-IT的生成器和判别器
  为了让系统在生成和判别时更具针对性地对特定区域进行转换和鉴别,作者加入CAM(意即类激活图模块),CAM能找出对于判断一张图的真假最重要的区域。
  作者提出的AdaLIN归一化方法,其作用为在归一化时,在Instance Normalization (IN)和Layer Normalization(LN)两种归一化方法之间动态自适应选择,不局限于常用的IN。AdaLIN可以使得系统灵活控制形状与质地的变化。

实验结果

作者首先研究了添加注意力模块CAM给系统带来的影响,下图为几幅图像转换的视觉效果比较:
在这里插入图片描述

a)源图像,b)生成器的注意图,(c-d)生成器的本地和全局注意图鉴别器,e)使用CAM的结果,f)不使用CAM的结果。

Alt

a)源图像,b)作者的结果,c)仅使用IN的解码器与CAM的结果,d)仅使用LN的解码器与的结果,e)用CAM解码器只使用AdaIN的结果,f)用CAM解码器只使用GN的结果。

使用CAM与AdaIN,均使得算法效果提升
在多个数据集上的表现如下:
Alt
参考文献:

https://arxiv.org/abs/1907.10830
https://mp.weixin.qq.com/s/8dOjp6UamlajIRmi-vuxhg
https://mp.weixin.qq.com/s/9m3kE3yePBE63nN7CnjCMA
https://zhuanlan.zhihu.com/p/114634165

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值