GAN Paint 水记 (GAN解剖+实时微调)

最新推荐文章于 2024-10-30 21:46:42 发布

fishslot

最新推荐文章于 2024-10-30 21:46:42 发布

阅读量465

点赞数

分类专栏：我的论文笔记文章标签：生成对抗网络深度学习计算机视觉

本文链接：https://blog.csdn.net/goryghost/article/details/126862864

版权

我的论文笔记专栏收录该内容

30 篇文章

订阅专栏

GAN Paint 水记 (GAN解剖+实时微调)

这个 GAN Paint 就是一个图像编辑模型

方案概述

先用重建任务训练一个自编码器（loss为：L1损失+VGG感知损失）

输入图片，用编码器编码为 z，然后用GAN Dissection 的方法编辑 z，然后用解码器产生图像。

为了保证未编辑的部分不变，在解码时会（通过对解码器网络权重加入扰动的方式）微调解码器。微调的优化目标是，令未编辑的部分与原图一致（loss为：带mask的L1损失+扰动的正则化项）。

注意，若要保证效果，每次编辑都需要微调扰动（单卡需要30秒）。

我认为这篇文章的关键是，他提到他用了一种技术，可以让未被编辑的部分与原图保持一致，而不是莫名其妙丢失很多信息。

一般的GAN（和自编码器）在重建的时候往往都不能重建原图的细节

GANPaint Studio

在这里插入图片描述

重建损失

很平常的方案

他们用的重建损失包括一个 L1 损失，和一个 VGG 感知损失

$\mathcal{L}_{r}(\mathrm{x}, G(\mathrm{z}))=\|\mathrm{x}-G(\mathrm{z})\|_{1}+\lambda_{\mathrm{VGG}} \sum_{i=1}^{N} \frac{1}{M_{i}}\left\|F^{(i)}(\mathrm{x})-F^{(i)}(G(\mathrm{z}))\right\|_{1}$

这个 $F^{(i)}$ 表示 VGG 的第 $i$ 层，该层有 $M_i$ 个特征， $\lambda_{VGG}=10$

不过这些并不能保证重建原图中的细节

在生成器中保留原图的细节

为了保留原图的细节他们设计了这个生成器：

在这里插入图片描述

在细粒度的卷积层加入了扰动，希望生成结果能更接近原图

这个所谓扰动网络看起来就是给生成器加了一些可训练参数而已，

这些参数用于保证未编辑的部分与原图一致（尽量保证），

这些参数每次编辑后都需要训练一下，
好在训练起来够快，单块GPU只要30秒

这个扰动是乘到两层之间的，就是说：前一层的输出，乘上扰动，输入下一层

$G_{F}^{\prime}\left(\mathrm{z}_{h}\right) \equiv g_{n}\left( {\color{orange}\left(1+\delta_{n-1}\right)} \odot g_{n-1}\left(\cdots\left( {\color{orange}\left(1+\delta_{h+1}\right)} \odot g_{h+1}\left(\mathrm{z}_{h}\right) \cdots\right)\right)\right)$

实际上不是非要用乘法，用加法也差不多

他们发现在最后 4 层加扰动比较有效（就是h=n-5）

他们对扰动加了 L2 正则化

扰动网络 R 的loss是：

$\mathcal{L}=\mathcal{L}_{\text {match }}+\lambda_{\text {reg }} \mathcal{L}_{\text {reg }}$

注意，其中：

$\mathcal{L}_{\text {match }} \equiv\left\|\left(G^{\prime}\left(\mathrm{z}_{e}\right)-x\right) \odot\left(1-\operatorname{mask}_{e}\right)\right\|_{1}$