[论文复现]Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalizatiton

最新推荐文章于 2024-09-24 07:58:56 发布

Costwen

最新推荐文章于 2024-09-24 07:58:56 发布

阅读量862

点赞数

分类专栏： GAN 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/Costwen/article/details/107847834

版权

GAN 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

前言

趁着暑假还有足够多的时间,参加了百度飞桨的论文复现营,10篇论文之中选择了这篇论文。

论文题目：U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

论文链接

不得不说,有机会体验8卡的V100有点小期待,百度这次挺大气

花时间读了一下这篇论文,讲述一下其中的创新点和一些自己的理解

模型结构

网络结构

在这里插入图片描述
说实在之前没有接触过cycle gan有点看不懂这个架构怎么训练，接下来应该会把这个图换成自己画的

生成器( $G_{s\rightarrow t},G_{t\rightarrow s}$ )

$G_{s\rightarrow t}$ 由一个encoder $E_s$ ,一个decoder $G_t$ 组成,同时有一个辅助分类器 $\eta_s$ (也就是attention机制)

$E_s^k(x)$ 表示第k张经过编码之后的特征图, $E_s^{k_{ij}}(x)$ 表示在 $i, j$ 位置的值, $w_s$ 表示每个特征图的加权, $a_s(x) = w_s * E_s(x)$ 表示加权之后的特征图

attention module

具体的操作如上图所示

将encoder得到的feature map 分别通过全局最大池化和全局平均池化,得到两个 $1\times 1 \times C$ 的向量,然后将向量铺平,与一个 $1\times1$ 向量的组成一个全连接层,这个全连接层不使用偏置

然后全连接层的权重就是相对应特征图的权重，与对应通道的特征图加权。由全局最大池化和全局平局池化分别得到两张特征图，将之连接起来，通过
一个 $\times 1 \times C$ 的卷积之后得到attention map

通过上面这一系列操作之后,我们的 $G_{s\rightarrow t}$ 就变成了 $G_t(a_s(x))$

判别器 $D_s,D_t)$

最近看了一下 $G A N$ 的几种网络,发现判别器的结构通常和生成器是对称的,猜想:G模型对称说明学习能力相近,只有学习能力相近的网络才能把GAN训练起来

以 $D_t$ 为例,输入有 $X_t,G_s\rightarrow t(X_s)$ 两种, $D_t$ 由一个encoder $E_{D_t}$ 和一个Classifier $C_{D_t}$ 和一个辅助分类器 $\eta D_t$ 组成

判别器的网络结构和生成器高度对称。

如同生成器一致,用辅助分类器将encoder之后的特征图添加attention机制和AdaLIN归一化操作即可

AdaLIN

然后就是Adaptivequad Layer-Instance Normalization的公式

Instance Normalization: $\hat{a_I} = \frac {a-\mu_I}{\sqrt{\sigma_I^2 + \epsilon}}$

IN针对的为一个通道上大小为 $H\times W$ 的特征图

Layer Normalization: $\hat{a_L} = \frac{a-\mu_L}{\sqrt{\sigma^2_L + \epsilon}}$

LN针对的为 $H\times W$ 位置上相同的通道数 $C$

在这里插入图片描述

然后AdaLIN把两者进行了合并: $AdaLIN(\alpha,\gamma,\beta) = \gamma \cdot(\rho\cdot\hat{a_I}+(1-\rho)\cdot\hat{a_L})+\beta$

其中 $\gamma,\beta$ 从attention map 经过各自的一个全连接层计算而来

$\rho \leftarrow clip_{[0,1]}(\rho-\tau\Delta\rho)$

其中 $\rho$ 的值在残差块之中被初始化为1,在上采样块中被初始化为0

AdaIN的前提是通道之间不相关,所以在每个通道各自做归一化,意味着被转化后的特征有更多的内容信息

而LN则没有这个假设,但有的时候LN不能很好的保持原始域的内容结构，因为LN只考虑的是全局统计信息

(这些解释我也不清楚为什么是这样,估计是实验的出来的,感觉像是最原版的风格迁移)

也就是说LN考虑的更多的是整体的风格,而IN考虑的是图片中的具体内容

损失函数

损失函数一共有四个(感觉可以换成smooth L1):

Adversarial loss: $L_{gan}^{s\rightarrow t} = E_{x\sim X_t}[(D_t(x))^2] + E_{x\sim X_s}[(1-D_t(G_{s\rightarrow t}(x)))^2]$

把经典的log函数换掉了,用MSE代替,原因是log函数在两个分布没有交集的时候,不会更新,梯度为0

Cycle loss: $L_{cycle}^{s \rightarrow t} = E_{x \sim X_{s}}[\left|x-G_{t \rightarrow s}\left(G_{s \rightarrow t}(x)\right)\right|_{1}]$

Identity Loss: $L_{i d e n t i t y}^{s \rightarrow t}=E_{x \sim X_{t}}[\left|x-G_{s \rightarrow t}(x)\right|_{1}]$

目的是为了保证颜色的分布不变

CAM loss:

$L_{\text {cam}}^{s \rightarrow t}= E_{x \sim X_{s}}[\log \left(\eta_{s}(x)\right)+E_{x \sim X_{t}}[\log (1-\eta_{s}(x)]$

$L_{c a m}^{D_{t}} =E_{x \sim X_{t}}[(\eta_{D_{t}}(x))^{2}]+E_{x \sim X_{s}}[(1-\eta_{D_{t}}(G_{s \rightarrow t}(x)))^{2}$

用 $\eta_s$ 和 $\eta_{D_{t}}$ ,当给定 $x\in \{X_s,X_t\}$ 时,让 $G_{s\rightarrow t}$ 和 $D_t$ 知道哪里他们需要去提升或者最大的不同在现在的两个域中

将上面的四个损失函数加权得到最终的损失函数,加权依次为 $1,, 10, 10, 1000$

创新点

创新点总体来说有两点:

一个是为GAN引入了Attention机制(这样才fashion)

第二个是提出了一种新的归一化手段AdaLIN,类似风格迁移之中的风格损失和内容损失

一点小启发:

对于网络之中的一些超参数,似乎都可以用通过引入前面的特征图,然后通过一系列的类似全连接/卷积等操作变为一个常数

这样这个超参数就变为根据能够学习到的内容,能够适应更加复杂的结构

典型的例子如:

$f r e l u (m a x (T (x), x))$ ,其中的 $T (x)$ 本质上也就是一种attention机制

具体的网络架构还需要看原作者的代码才能够清楚(之前没有写过cycle gan)

课程链接

百度飞桨的论文复现营

https://aistudio.baidu.com/aistudio/education/group/info/1340