GAN的域外编辑水记

最新推荐文章于 2024-07-04 11:22:15 发布

fishslot

最新推荐文章于 2024-07-04 11:22:15 发布

阅读量803

点赞数

分类专栏：我的论文笔记文章标签：生成对抗网络深度学习计算机视觉

本文链接：https://blog.csdn.net/goryghost/article/details/126898606

版权

我的论文笔记专栏收录该内容

30 篇文章 4 订阅

订阅专栏

GAN的域外编辑水记

《Editing Out-of-domain GAN Inversion via Differential Activations》

论文：https://arxiv.org/abs/2207.08134

项目：https://github.com/HaoruiSong622/Editing-Out-of-Domain

BV1Wt4y1g7Si

有时候真实图像没法很好的反演，这样就没法很好地编辑

本文设计了一个模型，将编辑后发生变化的部分应用回原图，实现域外编辑。

这样应该有一个前提，就是要编辑的部分的反演结果要比较好。如果要编辑的部分也反演得不好，很可能就会有问题。

总的看完，这个方法感觉不够鲁棒。

个人总结

在这里插入图片描述

大致流程

给定输入图片 $I$ 和编辑属性使用的向量 $\alpha_n$

先反演出 $I$ 的隐编码 $w$ 。

把 $w$ 直接输入生成器，重建出反演的图像 $I^{'}$ 。

对 $w$ 做编辑后输入生成器，生成反演并编辑后的图像 $T$ 。

用一个模型（称为可微分激励模型）计算 $I^{'}$ 与 $T$ 在哪些地方有差别，得到一个权重 mask $M$ 。

用权重 mask 指导，做 $I$ 和 $T$ 的加权和，得到一个粗略的编辑后图像 $F_{\text{fused}}$ 。

用一个图像翻译模型（称为去鬼影网络），输入 $F_{\text{fused}}$ ，输出完善的编辑后的图像。

可微分激励模型

用于计算 $\boldsymbol{I}^{\prime}$ 与 $\boldsymbol{T}$ 在哪些地方有差别，得到一个权重 mask $M$ 。

先准备一个可训练的编码器 $E_{\text{trainable}}(\cdot)$

计算 $I^{'}$ 和 $T$ 的编码之差 $\boldsymbol{\Delta}=E_{\text {trainable }}\left(\boldsymbol{I}^{\prime}\right)-E_{\text {trainable }}(\boldsymbol{T})$

用一个轻量级的卷积分类器，分析出有哪些属性被编辑过，使用softmax交叉熵损失。

然后我们对这个卷积分类器做 CAM ，得到其注意力分布图，作为权重mask。

CAM的步骤

$\frac{\partial s_{c}}{\partial \boldsymbol{H}_{i j}^{k}}$ 表示中间层特征 $H$ 在第 $k$ 个通道，像素坐标 $(i, j)$ 处，关于类别 $c$ 的梯度。其中 $s$ 表示分类器最后一层的输出，但是不经过sofmax 。

于是我们计算每个通道与类别相关的权重 $\beta_{c}^{k}$ ：

$\beta_{c}^{k}=\overbrace{\frac{1}{Z} \sum_{i} \sum_{j}}^{\text {global average pooling }} \frac{\partial s_{c}}{\partial \boldsymbol{H}_{i j}^{k}}$

其实就是通道上梯度的平均值，梯度越大说明权重越高。

然后我们计算 CAM 图：

$\boldsymbol{M}_{\mathrm{Diff-CAM}}=\operatorname{ReLU}\left(\sum_{k} \beta_{c}^{k} \boldsymbol{H}^{k}\right)$

其实就是把 $H$ 的各个通道做了加权和。

然后把 $\boldsymbol{M}_{\mathrm{Diff-CAM}}$ 标准化到 [0,1] 之间，就得到权重mask 了。

去鬼影网络

一个全卷积网络，由编码器、解码器、预训练的 StyleGAN2 生成器这几部分组成。

我们的目的是利用预训练的GAN里的人脸先验来生成无伪影的图像。

我们把 $F_{\text{fused}}$ 输入全卷积的编码器-解码器网络，编码器会得到 $F_{\text{fused}}$ 的隐编码（相当于反演？那你为啥要用全卷积结构啊？输出尺寸不该是固定的吗？），解码器会得到无伪影的图像， StyleGAN也会得到无伪影的图像。我们把两个生成器和解码器的对应层特征合并，得到最终结果。（哇，效果真的差呀，还要靠特征合并才行，这不是说明训练方向都有偏差吗……是因为合成的训练数据不能满足需要吧……）

为了训练去鬼影网络，我们合成了一系列图片对 $\left\{\boldsymbol{F}_{\text {train }}, \boldsymbol{I}\right\}$ 。

$\boldsymbol{F}_{\text {train }}$ 的合成方式如下：

$\boldsymbol{F}_{\text {train }}=\boldsymbol{T} \odot \boldsymbol{M}_{\text {train }}+\boldsymbol{I} \odot\left(1-\boldsymbol{M}_{\text {train }}\right)$

其中， $\boldsymbol{M}_{\mathrm{train}}$ 的合成方式如下：

$\boldsymbol{M}_{\mathrm{train}}(i, j)= \left\{\begin{array}{ccc} \boldsymbol{M}_{\text {Diff-CAM }}(i, j), & \text { if } \quad \boldsymbol{M}_{\text {Diff-CAM }}(i, j) \leq 0.5 \\ 1-\boldsymbol{M}_{\text {Diff-CAM }}(i, j),& \text { if } \quad \boldsymbol{M}_{\text {Diff-CAM }}(i, j)>0.5 \end{array}\right.$