CVPR2021论文--深度学习GAN&&图像处理--论文笔记_深度学习恢复图像翻译-CSDN博客

本文链接：https://blog.csdn.net/OpenSceneGraph/article/details/118147141

本文介绍了几种最新的深度学习技术在图像生成和转换中的应用。包括使用Hierarchical Style Disentanglement进行图像到图像翻译，StyleGAN编码器实现无监督的人脸对齐和多模态生成，通过Attentive NAS改进神经架构搜索，以及利用知识传播的条件GAN转移。此外，还讨论了预训练GAN的潜在风险和模型设计的新思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

/1 Image-to-image Translation via Hierarchical Style Disentanglement
paper：https://arxiv.org/abs/2103.01456
code：https://github.com/imlixinyang/HiSD

/2 Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

(样式编码：用于图像到图像翻译的StyleGAN编码器)
paper：https://arxiv.org/abs/2008.00951
code：https://github.com/eladrich/pixel2style2pixel
我们提出了一个通用的图像到图像转换框架，Pixel2Style2Pixel (pSp)。pSp框架是基于一个新的编码器网络，它直接生成一系列的风格向量，这些向量被输入到一个预先训练好的StyleGAN生成器中，形成扩展的W+潜在空间。我们首先证明我们的编码器可以直接嵌入真实图像到W+潜在空间，而不需要额外的优化。

我们进一步介绍一个专用的identity损失，它被证明在一个输入图像的重建中实现改进的性能。我们演示了pSp是一个简单的架构，通过利用一个训练有素的固定生成器网络，可以很容易地应用于广泛的图像到图像转换任务。通过Style表示来解决这些任务的结果是一种全局方法，它不依赖于局部像素到像素的对应，并进一步通过样式的重新采样支持多模态综合。值得注意的是，我们证明pSp可以训练在没有任何标记数据的情况下将人脸图像对齐到正面姿态，为模糊任务(如从分割地图生成条件人脸)生成多模态结果，并从相应的低分辨率图像构建高分辨率图像。

我们的pSp架构。首先在一个ResNet架构上使用一个标准的特征金字塔来提取特征图。然后，对于18个目标的风格的每一个，一个小映射网络训练中提取相应的学习风格特征map，在风格(0−2)产生的小的特征map，风格(3−6)映射中等的特征map，(7−18)映射最大的特征map。映射网络map2style是一个小型的全卷积网络，它使用一组2步幅卷积，然后是LeakyReLU激活，逐渐减小空间大小。每个生成的512向量，然后输入到StyleGAN中，从其匹配的仿射变换(记为A)开始。

/3 AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling

(通过注意力采样改善神经架构搜索)
paper：https://arxiv.org/pdf/2011.09011.pdf

神经结构搜索(NAS)：强化学习来优化神经网络的结构和参数，更快找到最好的神经网络

NAS在设计最先进的模型方面显示出了巨大的潜力，这些模型既精确又高效。近年来，BigNAS等两阶段NAS将模型训练和搜索过程解耦，取得了显著的搜索效率和准确性。两阶段NAS在训练过程中需要对搜索空间进行采样，这直接影响最终搜索模型的准确性。尽管均匀抽样因其简单性而得到广泛应用，但它不考虑模型性能的Pareto front（可行域内最接近真实值的解），而Pareto front是搜索过程中的主要关注点，因此错失了进一步提高模型精度的机会。在这项工作中，我们提出AttentiveNAS，以实现更好的Pareto 性能。在训练过程中，我们还提出了有效识别Pareto 网络的算法。无需额外的再培训或后处理，我们就可以通过广泛的FLOPs同时获得大量的网络。

/4 Efficient Conditional GAN Transfer with Knowledge Propagation across Classes

(高效的有条件GAN转移以及跨课程的知识传播)
paper：https://arxiv.org/abs/2102.06696
code：http://github.com/mshahbazi72/cGANTransfer

生成对抗网络(GANs)显示了在无条件和条件图像生成的令人印象深刻的结果。在最近的文献中，它表明，预先训练的gan，在不同的数据集上，可以转移，以改善从小目标数据的图像生成。然而，与无条件知识转移相比，条件知识转移提供了新的机会。特别是新班级可以借鉴相关旧班级的知识，也可以相互分享知识来提高培训。这促使我们研究知识跨阶层传播的有效条件GAN转移问题。为了解决这个问题，我们引入了一种新的GAN迁移方法来显式地将知识从旧类传播到新类。其核心思想是实施常用的条件批处理规范化(BN)，从旧类中学习新类的特定类信息，并在新类之间实现隐性知识共享。这允许从旧类到新类的有效知识传播，BN参数随新类的数量线性增加。广泛的评估表明，与最先进的竞争对手相比，所提出的方法具有明显的优势，有效的条件氮化镓转移任务。

/5 Hijack-GAN: Unintended-Use of Pretrained， Black-Box GANs(Hijack-GAN：意外使用经过预训练的黑匣子GAN)
paper：https://arxiv.org/pdf/2011.14107.pdf

Rethinking Channel Dimensions for Efficient Model Design(重新考虑通道尺寸以进行有效的模型设计)
paper:https://arxiv.org/abs/2007.00992
code:https://github.com/clovaai/rexnet

Inverting the Inherence of Convolution for Visual Recognition（颠倒卷积的固有性以进行视觉识别）

RepVGG: Making VGG-style ConvNets Great Again
paper:https://arxiv.org/abs/2101.03697
code:https://github.com/megvii-model/RepVGG
解读：

RepVGG：极简架构，SOTA性能，让VGG式模型再次伟大:https://zhuanlan.zhihu.com/p/344324470

Transformer

Transformer Interpretability Beyond Attention Visualization(注意力可视化之外的Transformer可解释性)
paper:https://arxiv.org/pdf/2012.09838.pdf
code:https://github.com/hila-chefer/Transformer-Explainability

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
paper:https://arxiv.org/pdf/2011.09094.pdf
解读：无监督预训练检测器:https://www.zhihu.com/question/432321109/answer/1606004872

Pre-Trained Image Processing Transformer(底层视觉预训练模型)
paper:https://arxiv.org/pdf/2012.00364.pdf