Anycost GANs for Interactive Image Synthesis and Editing

最新推荐文章于 2024-04-25 10:06:33 发布

萧班

最新推荐文章于 2024-04-25 10:06:33 发布

阅读量1k

点赞数 5

分类专栏：用 0|1 看待世界小鬼逐梦文章标签：计算机视觉深度学习网络

本文链接：https://blog.csdn.net/WinerChopin/article/details/115198575

版权

小鬼逐梦同时被 2 个专栏收录

27 篇文章 13 订阅

订阅专栏

用 0|1 看待世界

15 篇文章 2 订阅

订阅专栏

$\rm Profile$

平日里我们使用 $\rm Pr$ 、 $\rm Ae$ 做视频的时候，预览模式可以选择分辨率 $\rm \{full, 1/2, 1/4, etc.\}$ ，便于适应不同的边缘设备、模型复杂度下的实时预览和流畅的人机交互操作。
这篇文章首次将 $\rm Preview$ 应用到了基于 $\rm GAN$ 的图像编辑任务中——大规模的生成网络如 $\rm StyleGAN2$ 在边缘设备上执行简单的编辑需要耗费数秒的时间，带来不好的用户交互体验。

本文提出的 $\rm AnyCost~GAN$ 用于交互式的自然图像编辑，就借鉴了 $Q u i c k P r e v i e w$ 的工程设计，通过1️⃣调节生成图像分辨率、2️⃣调节模型每一层的卷积核通道数来实现3️⃣大范围的渲染加速。

其中，核心思想是：同时训练一个 $\rm full~generator$ 和任意多的 $\rm sub\_generators$ 。其中， $\rm sub\_generator$ 是隐藏在 $\rm full~generator$ 中的，类似于 $\rm Pruning~based$ 的模型压缩，从一个全网络中抽取一个精简版本，只不过这里是通过 $\rm channel~wise$ 的 $\rm Gating%$ 来限制生成网络的部分参与训练。

主要技术创新总结如下：

Motivation	Technology
训练多种规模配置的图像生成网络	1️⃣ Sampling-based multi-resolution training; 2️⃣ Adaptive-channel training; 3️⃣ Generator-conditioned discriminator.
保证全网络与各种子网络的输出图像一致性	Consistency loss.
编辑真实图像（ $\rm GAN~inv$ ）	1️⃣ Two-stage projection: ① Encoder training; ② Latent code optimization; 2️⃣ Consistency-aware image projection.

🐮🍺，好家伙 👀，不愧是 $\rm MIT+Adobe+CMU$ ，人家投 $\rm CVPR$ 是因为没有更 $\rm top$ 的会议了。

$\rm Preview$

我们不妨先一睹 $\rm teaser$ 为快——
在这里插入图片描述
上图中 $(a)$ 是输入待处理图像， $\rm (b)$ 是投影重构的图像，其中 $\rm ?\times~faster$ 是使用不同的子网络投影重构的图像， $\rm ?$ 越大说明子网络结构更精简； $\rm (c)$ 则是图像编辑效果。其中，标记加粗的列是全网络的输出结果，因而质量最高，但算力消耗也是最高。

$\rm Method$

$\rm Problem~Setup$

Notation	Format	Description
$\rm x$	${\rm x}\in{\mathbb R}^{H\times W\times 3}$	图像
$\rm z$	${\rm z}\in{\mathcal Z}$	低维随机向量，如在 $\rm StyleGAN$ 中是 $512$ 维
$\rm w$	${\rm w}\in{\mathcal W}^+, {\rm w}\in{\mathbb R}^{18\times 512}$	$\rm StyleGAN$ 中的 $\mathcal W^+$ 空间的向量。
$f$	$f:{\mathcal Z}\rightarrow{\mathcal W^+}$	作用于隐编码的非线性映射， ${\rm w}=f({\rm z})$
$G$	${\rm x}=G({\rm z})$	生成网络。
$G^{'}$	$G'({\rm w})\sim G({\rm w})$	$G$ 的子网络，期待输出图像与全网络视觉上尽可能一致。

$\rm AnyCost GAN$

进入主题 🍻， $\rm Overview$ 比较简单，如下图，

左边展示了分阶段的图像投影到 $\rm GAN$ 输入隐空间的双阶段过程，即： ${\rm x}\rightarrow[E]\rightarrow {\rm w}_0 \rightarrow [Optimization]\rightarrow{\rm w}_{\rm opt}$ ，中间则是图像编辑的原理： $\rm w_{edit}=w_{opt}+\Delta w$ ，右边则是让编辑后的 $\rm w_{edit}$ 经过算力消耗较低的子网络 $G^{'}$ 实现快速预览，或者经过算力耗费较高的全网络 $G$ 得到最终高质量输出图像。

那么注意到，我们期望学习得到的 $G$ 具有以下性质：
1️⃣ 可以动态调整不同的输出图像分辨率 → 这就要求基于 $\rm StyleGAN2$ 的 $G$ 的每一层输出都是自然图像，而不仅仅是最后一层的输出，这就好比 $\rm MSG-GAN$ ；
2️⃣ 可以动态调整每一层卷积参与运算的核来进一步压缩模型加速计算；
** 因此，最终单一一个 $G$ 就可以实现不同卷积核配置下输出不同分辨率的真实图像；而原本的 $\rm StyleGAN2$ 则不行，需要对每一个分辨率的图像单独保留一个模型。（👊 作者在文中反复强调他们的 single model，这里就先单独提出来8️⃣）

现在我们可以对比着来看看，为了满足前面第一个表格的两个 $\rm Motivations$ ，作者采用的技术实现。

我们可以对比着 $\rm StyleGAN2$ 和 $\rm MSG-GAN$ ，其中，满足动机“训练多种规模配置的图像生成网络”的 $\rm 3$ 个技术点已经在 $\rm (c)$ 中标记了出来。

Multi-resolution Training
如上图所示，在每次迭代中，随机选择一个输出分辨率（如 $128\times128$ ），输出图像送入判别器对应的层的 $\rm from\_rgb$ 作编码。
不同于 $M S G - G A N$ ，并不是每次迭代中所有的分辨率都考虑，这样的一种 all resolutions training 机制会导致在高分辨率图像数据集如 $\rm FFHQ$ 上的失败，如下表所示：
训练的损失函数是在原来基础上简单的变体，假设全网络的数据流为： $\widetilde{\rm x}=G({\rm w})=g^K\circ g^{K-1}\circ...\circ g^k\circ...\circ g^2\circ g^1({\rm w})\tag{1}$ 则随机采样分辨率输出就可以被表示为 $\widetilde{\rm x}^k=G({\rm w})=g^k\circ...\circ g^2\circ g^1({\rm w}),~k \le K\tag{2}$ 于是训练时候模型的输出集合就变成了 $\{\widetilde{\rm x}^1,\widetilde{\rm x}^2,...,\widetilde{\rm x}^K\}$ ，对应的对抗损失函数就变成了： ${\mathcal L}_{\rm multi-res}={\mathbb E}_{{\rm x},k}[\log D({\rm x}^k)]+{\mathbb E}_{{\rm w},k}[\log(1-D(G^k({\rm w})))]\tag{3}$
Adaptive-channel Training
单纯通过降低生成图像的分辨率得到的提速并不明显（如 $1024\times1024\rightarrow256\times256$ 只是提升了 $1.7\times$ ），更显著的加速是通过减少每一层参与计算的卷积核数来实现。
模型现在上面的随机采样分辨率设置下训练完毕；然后对每一层，根据卷积核的大小（计算同其他基于剪枝的模型压缩算法）从大到小排序，对应到输出特征上，将其分为前 $\alpha c$ 个通道（ $\alpha \in \{0.25, 0.5, 0.75, 1.0\}$ 是一个均匀采样的 ratio ， $c$ 是这一层的卷积核数），则每次随机采样是对这一层随机地取前 $\alpha c$ 个核。
** 不同层的 $\alpha$ 可以是一样的（ $\rm uniform$ ），也可以是不同的（ $\rm flexible$ ）。
如此，在这一阶段，模型的对抗损失函数可以被设置为： ${\mathcal L}_{\rm ada-ch}={\mathbb E}_{{\rm x},k}[\log D({\rm x}^k)]+{\mathbb E}_{\rm w}[\log (1-D(G_{\mathbb C}^k({\rm w})))] {\tag 4}$ 其中 $\mathbb C$ 就是每一层的通道配置。

到这里，子网络就出现了，为了保证不同的子网络输出与全网络的输出在视觉上尽可能保持一致，我们需要引入一个直接的限制： $\rm Consistency~Loss$ ，表述如下 ${\mathcal L}_{\rm total}={\mathcal L}_{\rm ada-ch}+{\mathbb E}_{{\rm w},k,{\mathbb C}}[{\mathcal l(G_{\mathbb C}^k({\rm w}),G({\rm w}))}] {\tag 5}$ ，其中的 $l$ 就是 $\rm MSE ~Loss+LPIPS~Loss$ 。如果不加这个一致性损失函数，则会导致子网络输出与全网络输出有显著的视觉差异，如下图 $\rm (c)$ 和 $\rm (d)$ ：

在上面两个阶段，子网络与全网络交替训练。

Generator-conditioned Discriminator
紧接着出现的问题是，单一个 $D$ 无法同时与多样化配置的 $\{G\}\cup\{G'\}$ ，因此，我们需要将这个“多样性”引入 $D$ ，结果如下表所示：
其中， $\rm vanilla$ 是 $\rm StyleGAN2$ 对应分辨率和对应通道数配置训练的模型（注意到这里需要训练8个网络）；下面的 ${\rm same}~D$ 就是使用单一的鉴别器训练阶段 1 和阶段 2。

具体的，作者在文中提到两个改进——
1️⃣ $\rm reduce~ch$ ，即对应生成网络某一层的通道数乘子（Channel multipliers），也应用到鉴别网络对应的某一层里。但是这对于生成大图像（如上表中的 $256\times256$ 而言，太少的通道数极大地弱化了鉴别器的性能）；
2️⃣ $\rm conditioned$ ，即将生成器每一层的乘子配置用独热向量表示，如： $\alpha=0.75$ ，则有向量 $0~0~1~0]^T$ ，将所有层的这些向量拼接在一起，得到图中黄色的 $g\_arch$ ，再经过非线性映射得到参数，以 $\rm Mod-deMod$ 的形式插入到鉴别器倒数 2 层（只选择倒数两层是为了稳定训练）。

至此，前两个动机就可以被很好满足了。
但有一个问题，就是如何根据算力预算（ $\rm Computation~Budget$ ）来确定最佳的子网络？因为训练的时候我们是随机采样子网络的。

Searching under different budgets
使用进化算法搜索离散空间的最佳点❗（具体算法参见论文 $\rm B.1$ ）

$\rm Image~Projection~with~AnyCost~Generators$

实际上是在前人的工作（ $\rm iGAN$ ）基础上进行的简单扩展，分为两个阶段：
1️⃣ 直接训练一个编码器 $E$ ， $E^*=\argmin_E \mathbb E_{\rm x}l(G(E({\rm x})),{\rm x}), {\rm w}_0=E^*({\rm x})$ 2️⃣ 采用迭代优化的方式对 $\rm w_0$ 进行微调， ${\rm w}^*=\argmin_{\rm w}l(G({\rm w},{\rm x}))$ ，作者对齐做的修改是希望让子网络投影得到的 $\rm w$ 也具有全网络的投影的可编辑性，于是对优化目标增加了一致性损失函数，即 $E^*= \argmin_E \mathbb E_{\rm x}[l(G(E({\rm x})),{\rm x})+\alpha\mathbb E_{k,\mathbb C}l(G_{\mathbb C}^k(E({\rm x})), {\rm x})] {\tag 6}$ ${\rm w}^*=\argmin_{\rm w}[l(G({\rm w},{\rm x})+\alpha{\mathbb E_{k,\mathbb C}l(G_{\mathbb C}^k({\rm w},{\rm x}))}] {\tag 7}$ 作者在实验中设置 $\alpha=1$ 。

Image editing with anycost generators
最后，熟悉基于 $\rm StyleGAN$ 的图像编辑的工作的读者对于 $\rm direction~based$ 的隐空间漫步应该就很熟悉了。对于全网络与子网络分别有： $G(\rm w+\Delta w)$ 和 $G_{\mathbb C}^k(\rm w+\Delta w)$ 。

$\rm Experiments$

作者做了很多的实验哈😃，这里我们挑几个有意思的图表来说明一下😳

图 $\rm (a)$ 展示的是不同方法的算力消耗（ $\rm MACs$ ）与图像生成质量（ $\rm FID$ ）之间的权衡，其中， $\rm Distill$ 是基于知识蒸馏获得小型网络的方法， $\rm ChannelPrune$ 是基于通道剪枝的模型压缩方法， $\rm Vanilla$ 则是不同配置下的 $\rm StyleGAN2$ 专门训练的模型。
图 $\rm (b)$ 度量不同算力消耗下，子网络输出与全网络输出之间的差别，其中，相对于 $\rm (a)$ ， $\rm Vanilla$ 和 $\rm Distill$ （笔者认为作者这里的图标记错误了）是训练得到新的子模型，无法比较进行比较。

最后在看一些图放松一下吧🍋，
不同算力消耗的子网络的输出图像比较——

比较子网络与全网络的图像编辑效果——

好家伙！ $\rm Adobe$ 出品，必有 $\rm Demo$ ，截图感受一下吧！

萧班

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
5
评论
Anycost GANs for Interactive Image Synthesis and Editing

Profile\rm ProfileProfile平日里我们使用 Pr\rm PrPr、Ae\rm AeAe 做视频的时候，预览模式可以选择分辨率 {full,1/2,1/4,etc.}\rm \{full, 1/2, 1/4, etc.\}{full,1/2,1/4,etc.}，便于适应不同的边缘设备、模型复杂度下的实时预览和流畅的人机交互操作。这篇文章首次将 Preview\rm PreviewPreview 应用到了基于 GAN\rm GANGAN 的图像编辑任务中——大规模的生成网络如 Sty.
复制链接

扫一扫