论文阅读记录 101-150篇 20210818-_semanticstylegan-CSDN博客

本文链接：https://blog.csdn.net/qq_32071849/article/details/119781001

本文综述了2022年的几项关键研究，包括按需分割与识别的VisualRecognitionbyRequest，夜间DA分割的DANNet，以及基于StyleGAN的图像编辑方法。重点介绍了模型如何进行实例分割、无监督语义解析和自监督场景去遮挡。新技术如HPQ评价和HyperStyle的超网络训练展示了前沿进展。

摘要由CSDN通过智能技术生成

2022-9-9
Visual Recognition by Request
arXiv 2207 按需分割和识别
基本精读
层级地进行分割。例如先把场景分成人和车，人再分成手、腿、……。由此产生了两种requires。每一个都是按需执行。一是把1个instance下分很多semantic region，每个semantic region被一个或几个像素探测，从而变成instance。二是把semantic 分割和instance 分割（同一个semantic可能对应多个）分开。
四个输入：图像X、当前分割图Z、询问Q、知识库G。
后面介绍如何在Type-I任务中计算每个像素的类别，类似算关注类和图像Feature的点积，然后找最大的。Type-II任务类似MaskRCNN的instance-segmentation。
此外，提出了HPQ评价指标，设计类似递归的TP/(TP+1/2FP+1/2TN)。不太理解的地方是该模型需要训练吗？如何支持新类。
2022-8-3
DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation
CVPR2021 夜间DA分割
基本精读。将白天、夜间的图像用对抗都转换到一个图像域中，再接已有的分割模型。为了适应白天黑夜，设计了light loss，包括total variance、32avg pooling的一个动态回归（公式4）、ssim图像重构。分割用了重加权的策略（公式1和2）。此外，白天、黑夜图像有一个粗粒度的对齐，该对齐可以指导静态物体的分割。这篇文章介绍了DarkZurich夜间数据机，常用的Cityscapes数据集、Nighttime Driving数据集，值得一看。
工作需要
2021-12-28
HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
arXiv2111 对StyleGAN网路参数的fine-tune
用StyleGAN做重构，有优化和用encoder（例如e4e）的方法，但重构和编辑在效果上之间一直有trade-off，为了能编辑的好，会用优化的方式利用单张图对stylegan网络参数进行fine-tune，这个过程太慢，所以他们设计并训练了hypernetwork，预测stylegan网络参数的偏移量，优化变成学习。训练数据用真实图像和e4e重构图像。Loss包括L2、LPIPS、id similarity三项，对于非人脸，采用MoCo-based similarity。具体的对stylegan网络参数的修改，采用了ReStyle的方式，forward了5遍，一点点修改。实验就只看了几眼。不过感觉似乎缺乏编辑的定量实验啊。但是思路很顺
振梁师兄推荐
2021-12-27
Closed-Form Factorization of Latent Semantics in GANs
CVPR2021 训练好的GAN的无监督语义挖掘
related work写了latent semantic interpretation，考虑线性的情况，把参数视作变换矩阵，找矩阵投影后，变化最大的单位方向。解类似PCA。在网络的低层、中层、高层各自做了实验。不过当网络中引入非线性时，产生了什么变化，感觉也不得而知啊。该方法可以用于PGGAN、StyleGAN、BigGAN。
无监督解耦需要
2021-12-22
Self-Supervised Scene De-occlusion
CVPR2020 自监督 instance覆盖关系预测、amodal instance 补全
精读，很不错的工作。其实本质上该工作更像是自监督去遮挡。利用子监督解决场景中物体遮挡。网络分两个，PCNet-M用来恢复被遮挡物的mask，PCNet-C用来恢复被遮挡物的RGB内容。过程分为三部分，如图2.一是覆盖关系预测、二是非模态补全、三是内容补全。PCNet-M的训练采用了自监督，如图3(a)，随即抓一个instance，放到图中的另一个instance的前或者后，然后重构。牛逼啊。PCNet-C类似。通过复原，看谁的被遮挡像素多，谁就是被覆盖者occludee. 在多个物体时，要把所有的祖先当作覆盖者，然后传入模型，预测被覆盖区域。实验包括序关系预测、amodal补全、amodal instance分割、场景manipulation。用该方法的amodal instance segmentation做psedo label，训练MaskRCNN，得到的mAP居然和有监督是一样的。PCNet-C的训练有判别loss
jiping组follow，导师推荐
2021-12-17
SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
arxiv2112 基于Mask过程驱动的生成（估计投CVPR，很强的工作）
略略读。和StyleGAN类似都是做生成，区别在于它的生成过程会显式产生mask，基于Mask生成，从而对某一个属性进行控制，包括表征和形状。控制的信号包括公有的（例如表示姿态、zoom in, zoom out这些），以及每个特征各自的。Mask的Fusion过程基于可微分的Z-buffer，也即softmax. 另外判别器采用cGAN，但是先把人脸和mask各自分开过卷积，从而能平衡mask那边过大的梯度。输出直接相加。这样能够mask分支上引入R1正则. 总loss为三项，如公式6
马哥推荐
2021-8-18
3D Hair Synthesis Using Volumetric Variational Autoencoders
TOG2018 单张图片建模头发
发丝hair strands表示成两个部分，3D occupancy field和flow field. 数据集有2318个hairstyle，头发的几何形状经过归一和对齐。这里VAE的输入是一个四维的数据啊。后处理进行头发区域的适配。
3D头发适配