本文为百度论文复现营论文阅读心得。
非常感谢百度提供的学习资源,论文复现课程链接为:https://aistudio.baidu.com/aistudio/education/group/info/1340
本人对U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation这篇论文比较感兴趣,因此选择这篇论文进行复现。
- 论文下载链接:https://arxiv.org/pdf/1907.10830.pdf
- 论文pytorch版代码链接:https://github.com/znxlwm/UGATIT-pytorch
1 主要工作
- 通过无监督方式实现两个图像域间纹理和像差別很大时的风格转换
- 实现了相同的网络结构和超参数同时进行需要保持 shapes的图像翻译(例 horse2zebra)和需要改变 shape的图像翻译任务(例cat2dog)
2 模型结构
3 创新点
- 提出了一种无监督的图像到图像翻译的新方法,以端到端的方式结合了新的注意力模块和新的自适应标准化功能。
- 提出了自适应层实例归一化(AdaLIN),其参数可以在训练期间通过自适应选择实例归一化(Instance normalization,IN)和层归一化(Layer Normalization,LN)之间的比率从数据集中学习得到。
- 利用 attention模块(添加辅助分类器),增强生成器的生成能力,更好的区分源域和目标域;以及判别器的判别能力,更好的区分生成图像和原始图像
3.1 AdaLIN:自适应层实例归一化
- IN进一步局限到单个channel之间,而LN则跨过所有channels。因此,IN假设不同feature的不同channels之间是无关的(uncorrelated),因此单独作用于每个channel可能会引入对原来的语义(semantic content)的干扰;
- LN尽管是对所有channels作权衡,但考虑到normalization的本质还是“平滑”,容易抹消一些语义信息。
作者把两者结合起来,互相抵消他们之间的不足,同时又结合了两者的优点:
a ^ I = a − μ I σ I 2 + ϵ , a ^ L = a − μ L σ L 2 + ϵ \hat{a}_{I}=\frac{a-\mu_{I}}{\sqrt{\sigma_{I}^{2}+\epsilon}}, \hat{a}_{L}=\frac{a-\mu_{L}}{\sqrt{\sigma_{L}^{2}+\epsilon}} a^I=σI2+ϵa−μI,a^L=σ