论文阅读记录 101-150篇 20210818-

本文综述了2022年的几项关键研究,包括按需分割与识别的VisualRecognitionbyRequest,夜间DA分割的DANNet,以及基于StyleGAN的图像编辑方法。重点介绍了模型如何进行实例分割、无监督语义解析和自监督场景去遮挡。新技术如HPQ评价和HyperStyle的超网络训练展示了前沿进展。
摘要由CSDN通过智能技术生成
  1. 2022-9-9
    Visual Recognition by Request
    arXiv 2207 按需分割和识别
    基本精读
    层级地进行分割。例如先把场景分成人和车,人再分成手、腿、……。由此产生了两种requires。每一个都是按需执行。一是把1个instance下分很多semantic region,每个semantic region被一个或几个像素探测,从而变成instance。二是把semantic 分割和instance 分割(同一个semantic可能对应多个)分开。
    四个输入:图像X、当前分割图Z、询问Q、知识库G。
    后面介绍如何在Type-I任务中计算每个像素的类别,类似算关注类和图像Feature的点积,然后找最大的。Type-II任务类似MaskRCNN的instance-segmentation。
    此外,提出了HPQ评价指标,设计类似递归的TP/(TP+1/2FP+1/2TN)。不太理解的地方是该模型需要训练吗?如何支持新类。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  2. 2022-8-3
    DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation
    CVPR2021 夜间DA分割
    基本精读。将白天、夜间的图像用对抗都转换到一个图像域中,再接已有的分割模型。为了适应白天黑夜,设计了light loss,包括total variance、32avg pooling的一个动态回归(公式4)、ssim图像重构。分割用了重加权的策略(公式1和2)。此外,白天、黑夜图像有一个粗粒度的对齐,该对齐可以指导静态物体的分割。这篇文章介绍了DarkZurich夜间数据机,常用的Cityscapes数据集、Nighttime Driving数据集,值得一看。
    工作需要
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  3. 2021-12-28
    HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
    arXiv2111 对StyleGAN网路参数的fine-tune
    用StyleGAN做重构,有优化和用encoder(例如e4e)的方法,但重构和编辑在效果上之间一直有trade-off,为了能编辑的好,会用优化的方式利用单张图对stylegan网络参数进行fine-tune,这个过程太慢,所以他们设计并训练了hypernetwork,预测stylegan网络参数的偏移量,优化变成学习。训练数据用真实图像和e4e重构图像。Loss包括L2、LPIPS、id similarity三项,对于非人脸,采用MoCo-based similarity。具体的对stylegan网络参数的修改,采用了ReStyle的方式,forward了5遍,一点点修改。实验就只看了几眼。不过感觉似乎缺乏编辑的定量实验啊。但是思路很顺
    振梁师兄推荐
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  4. 2021-12-27
    Closed-Form Factorization of Latent Semantics in GANs
    CVPR2021 训练好的GAN的无监督语义挖掘
    related work写了latent semantic interpretation,考虑线性的情况,把参数视作变换矩阵,找矩阵投影后,变化最大的单位方向。解类似PCA。在网络的低层、中层、高层各自做了实验。不过当网络中引入非线性时,产生了什么变化,感觉也不得而知啊。该方法可以用于PGGAN、StyleGAN、BigGAN。
    无监督解耦需要
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  5. 2021-12-22
    Self-Supervised Scene De-occlusion
    CVPR2020 自监督 instance覆盖关系预测、amodal instance 补全
    精读,很不错的工作。其实本质上该工作更像是自监督去遮挡。利用子监督解决场景中物体遮挡。网络分两个,PCNet-M用来恢复被遮挡物的mask,PCNet-C用来恢复被遮挡物的RGB内容。过程分为三部分,如图2.一是覆盖关系预测、二是非模态补全、三是内容补全。PCNet-M的训练采用了自监督,如图3(a),随即抓一个instance,放到图中的另一个instance的前或者后,然后重构。牛逼啊。PCNet-C类似。通过复原,看谁的被遮挡像素多,谁就是被覆盖者occludee. 在多个物体时,要把所有的祖先当作覆盖者,然后传入模型,预测被覆盖区域。实验包括序关系预测、amodal补全、amodal instance分割、场景manipulation。用该方法的amodal instance segmentation做psedo label,训练MaskRCNN,得到的mAP居然和有监督是一样的。PCNet-C的训练有判别loss
    jiping组follow,导师推荐
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  6. 2021-12-17
    SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
    arxiv2112 基于Mask过程驱动的生成(估计投CVPR,很强的工作)
    略略读。和StyleGAN类似都是做生成,区别在于它的生成过程会显式产生mask,基于Mask生成,从而对某一个属性进行控制,包括表征和形状。控制的信号包括公有的(例如表示姿态、zoom in, zoom out这些),以及每个特征各自的。Mask的Fusion过程基于可微分的Z-buffer,也即softmax. 另外判别器采用cGAN,但是先把人脸和mask各自分开过卷积,从而能平衡mask那边过大的梯度。输出直接相加。这样能够mask分支上引入R1正则. 总loss为三项,如公式6
    马哥推荐
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  7. 2021-8-18
    3D Hair Synthesis Using Volumetric Variational Autoencoders
    TOG2018 单张图片建模头发
    发丝hair strands表示成两个部分,3D occupancy field和flow field. 数据集有2318个hairstyle,头发的几何形状经过归一和对齐。这里VAE的输入是一个四维的数据啊。后处理进行头发区域的适配。
    3D头发适配
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值