CVPR 2022 | RSSA：通过空间结构对齐实现高质量小样本图像生成

最新推荐文章于 2023-12-20 11:29:34 发布

Amusi（CVer）

最新推荐文章于 2023-12-20 11:29:34 发布

阅读量544

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247545106&idx=4&sn=81a82c765bc77910038bc087469074b6&chksm=f9a1439dced6ca8bea8650afcfa9c52c7e5d9468f229f5e656494bd64565453fe10190b4b4dc&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：科科科科科大侠 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/496034127

RSSA：Few Shot Generative Model Adaption via Relaxed Spatial Structural Alignment

论文：https://arxiv.org/abs/2203.04121

代码：https://github.com/StevenShaw1999/RSSA

Motivation

给定有限的训练样本，生成模型通常容易过拟合。一个简单有效的解决方案就是将大规模预训练的模型适配到包含少量数据的目标域上，然而，现有方法在给定及其少量样本（少于10）的时候，容易发生过拟合和模式崩塌现象。另一个方案是对训练数据进行数据增强从而提升模型的鲁棒性，然而这类方法通常也只适用于训练数据大于100的场景。

CVPR2021提出的CDC迁移方法，通过实例距离间的一致性损失，保留源域和目标域之间的相对相似度和不相似度。通过KL距离对源域生成样本的多样性适配到目标域生成样本，从而提升小样本场景下的生成多样性。然而，CDC方法仍然存在identity degredation和unnatural distortions的问题，就是说，生成的图片不能保留好的结构信息，图像中的实体或目标会在结构上发生形变，导致目标域生成样本还是存在一定偏差。因此，本文提出RSSA，利用源域样本中的丰富空间结构信息来解决上面的两个问题。

Method

将源域丰富的结构信息适配到目标域，通过跨域空间结构一致性损失实现，具体包括两项，一个是自相关一致性损失（self-correlation consistency loss），另一个是扰动相关一致性损失（disturbance correlation consistenty loss），前者对于目标域生成器和源域生成器生成的样本对进行约束，控制其对结构信息的学习，后者有助于对齐潜在空间中相邻样本之间的空间互相关性，以约束目标域生成器对特定实例的变化趋势的一致性。

此外，直接利用跨域空间结构一致性损失将源域适配到目标域，可能会导致源域的结构主宰生成结构，且减缓模型的收敛。因此，本文进一步提出将隐空间压缩到一个子空间，子空间与target domain更靠近，这样能够让子空间中生成的样本更靠近彼此，避免将源域全部的结构迁移到目标域。

模型框架图，(a) 为整体框架，(b)为子空间的压缩，(c) 为跨域空间一致性损失两项示意

Cross-domain spatial structural consistency loss

如上图所示，CDC直接对源域和目标域生成样本的一致性进行约束，迁移后的生成样本可能保留了原有的关系，但是他们的结构却发生了偏移。为了将结构信息考虑在适配过程，首先通过一个自相关一致性约束保留源域样本结构信息：

fl 表示第 l 层的特征图， fl(x, y) 表示一个 c 维向量，计算不同位置与(x,y)之间的余弦相似度，相当于记录下了feature中各个位置之间的距离和相关性，对源域生成器和目标域生成器之间的自相关矩阵进行约束，可以实现将源域的结构适配到目标域的目的。

进一步的，由于潜在空间中的latent code是连续而不是离散的，所以作者认为，需要对生成图像在某些扰动下的变化趋势进行约束，具体来说，采取一个输入噪声作为锚点，在其周围采样一批输入噪声，生成的样本之间也应该是靠近且结构一致的，对于选取锚点z，以半径为r采样N个输入噪声：

Q 是计算 (x, y) 对应区域的位置。

最后，通过L1距离来对源域和目标域对噪声编码扰动进行约束：

2. Latent space compression

提出将前空间压缩到与目标域更近的子空间，首先将样本通过Image2StyleGAN映射到浅空间，并对其进行分解：

通过这样的方式，得到一个更靠近目标域的子空间，可以加速并稳定训练过程，而且从压缩子空间中生成的图片也能很好的还原原始图片的texture信息，如下图。

3. Structural Consistency Score

为了更好的体现本文中方法对空间结构的良好保留，进一步提出结构一致性指标：

H（·）表示HED函数，生成样本之间的SCS指标被定义为：

SCS越高，就表示有着更高的结构一致性。

Experiments

源域预训练模型包括三种，StyleGAN2在FFHQ、LSUN Churches、LSUN Cars预训练得到，适配到face Sketches， face paintings by Van Goph， face paintings by Moise Kisling，Haunted houses，village painting by Van Goph和wrecked/abandoned cars. 目标域的样本数设定包括10,5,1-shot。

可视化结果：

量化结果：

消融实验：

Conclusions

从图像结构的角度，在CDC的基础上进一步提出对源域图片的结构信息也迁移到目标域，对目标域生成图片有进一步的适配，出发点和方法都设计的很好，实验方面的量化对比虽然不多，但是从可视化的各个角度讨论了方法对于结构的保留和适配，整个图的质量也都很高。这也说明了即便是Adaptation的方法，也是可以挖掘更多源域信息从而用于提升目标域生成的，这一点思想可以作为进一步探讨的方向。

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看