论文笔记-Transformation GAN for Unsupervised Image Synthesis and Representation Learning

论文信息

  • 论文标题:Transformation GAN for Unsupervised Image Synthesis and Representation Learning

  • 论文作者:Jiayu Wang, Wengang Zhou, Guo-Jun Qi, Zhongqian Fu, Qi Tian, Houqiang Li

  • 研究机构:中国科学技术大学;Futurewei

  • 论文出处:CVPR 2020

  • 引用信息:

    @inproceedings{DBLP:conf/cvpr/WangZQFTL20,
      author    = {Jiayu Wang and
                   Wengang Zhou and
                   Guo{-}Jun Qi and
                   Zhongqian Fu and
                   Qi Tian and
                   Houqiang Li},
      title     = {Transformation {GAN} for Unsupervised Image Synthesis and Representation
                   Learning},
      booktitle = {2020 {IEEE/CVF} Conference on Computer Vision and Pattern Recognition,
                   {CVPR} 2020, Seattle, WA, USA, June 13-19, 2020},
      pages     = {469--478},
      publisher = {{IEEE}},
      year      = {2020},
      url       = {https://doi.org/10.1109/CVPR42600.2020.00055},
      doi       = {10.1109/CVPR42600.2020.00055},
      timestamp = {Tue, 11 Aug 2020 16:59:49 +0200},
      biburl    = {https://dblp.org/rec/conf/cvpr/WangZQFTL20.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    
  • 代码链接:None

论文主要贡献和参考价值

  • 主要贡献:

  • 参考价值:

    论文要点翻译

    • 摘要
      • GAN 已经在图像生成和无监督学习中展现了良好的性能。但是,在大多数场景中,无监督 GAN 提取的特征表示通常不适用于其他计算机视觉任务,条件 GAN 一定程度上解决这个问题,但是条件 GAN 的主要缺点在于需要成对的标注数据,为了改进图像合成质量以及无监督条件下学习得到的特征表示的性能,本文提出了简单有效的转换 GAN,即 TrGAN
      • 本文方法和之前方法不同,之前的方法捕捉的的是图像和标签的成对联合分布 p ( x , y ) p(x,y) p(x,y) 作为条件 GAN ,本文方法则是对转换的图像 t ( x ) t(x) t(x) 和转换关系 t t t 的联合分布进行估计
      • 具体而言,给定随机生成的转换关系 t t t,训练判别器估计输入的转换关系,并使用原始的 GAN 的训练方式进行训练,此外,中间特征匹配以及特征转换的匹配被引入用于增强生成特征的正则化
      • 实验结果证明提取的特征是有效的,在四个数据集的实验结果说明合成的图像和提取的特征都能够达到本文的目的
    • 引言
      • 作为计算机视觉中的基础任务,表征学习近年来已经受到广泛关注,由于 DNN 的学习能力,许多任务都利用 DNN 取得了新的性能基准,包括图像分类、语义分割、图像生成等;此外,实际上,在大规模数据集上训练的 DNN 提取的特征可以用于其他相关的任务,甚至被用于其他模态的数据,但是,训练 DNN 通常是数据驱动的监督式学习策略,这样就需要大量的数据,在一些实际应用场景中就由于难以提供大量数据而无法很好地使用 DNN 模型,因此,作为有效的、不需要大量数据的无监督方法已经受到越来越多的关注
      • 生成模型通常训练后用于捕获真实数据分布规律(无监督标签),为了生成新的内容,生成模型需要对训练数据叫了解,这个特性使得生成模型在无监督学习任务中也是有效的,其中用于表征学习的一类生成模型就是 GAN。由于判别器被训练提取可以区分真实数据和生成数据的特征,判别器中的中间表示特征就可以被看成是提取得到的输入的表示,然而,实验观察到,由于 GAN 的训练是不稳定的动态过程,这会对判别器的表征学习带来负面影响
      • 除了 GAN,另一种无监督学习方法叫做自监督学习也在实际场景种表现较好的性能。自监督方法不需要标注数据,利用训练数据自身提供的信息作为自监督信号,这类方法通过自监督的训练目标训练网络,最近的自监督 SS-GAN 使用图像旋转角度作为分类目标,用于辅助训练过程,其中的判别器用于判断旋转角度,这样集成的优势在于,模型可以结合条件 GAN 的优势同时不需要标注数据,但是 SS-GAN 种,旋转检测的正则只作用于生成器的输出,这是不足够的。实际上,除了对输出图像改进质量,对中间特征表示的正则化也是十分重要的,本文的工作正是提出了特征转换关系的匹配方法用于适应该需要
      • 本文提出转换关系生成对抗网络 TrGAN 用于改进无监督图像合成以及表征学习,本文继续 SS-GAN 的合作对抗训练框架,重新设计训练方法和自监督信号,受到自编码转换的启发,本文使用投影转换替换图像旋转,训练的模型基于原图和转换的部分估计转换关系,换言之,本文要求模型捕获给定转换关系造成的数据变化,然后将判别器和生成器都分成若干块,对生成器和判别器的中间特征进行匹配,此外,本文进一步引入特征转换的正则化,用于在生成器种使其生成的图像和中间的特征都可以检测到转换关系
      • 本文主要贡献在于:(1)提出特征转换匹配方法,其中提出的方法可以有效捕获真实数据分布;(2)利用判别器和生成器的中间特征提供的额外的监督信号对生成器特征和判别器特征之间进行相互促进;(3)提出的 TrGAN 改进了生成图像以及提取特征的质量,在几个广泛使用的数据集上都有效
    • 相关工作
      • 自编码器
      • GAN
      • 自监督学习
      • 中间特征匹配
    • 方法
      • GAN 知识背景:G 和 D 的相互博弈
      • 转换关系生成对抗网络
        • TrGAN 目标在于估计转换的图像以及转换关系之间的联合分布,给定从分布 p ( t ) p(t) p(t) 采样的转换关系 t t t,利用转换关系得到图像 t ( x ) t(x) t(x) ,联合分布 p ( t ( x ) , t ) p(t(x),t) p(t(x),t) 可以分解为 p ( t ( x ) , t ) = p ( t ) p ( t ( x ) ∣ t ) p(t(x),t)=p(t)p(t(x)|t) p(t(x),t)=p(t)p(t(x)t) 或者 p ( t ( x ) , t ) = p ( t ( x ) ) p ( t ∣ t ( x ) ) p(t(x),t)=p(t(x))p(t|t(x)) p(t(x),t)=p(t(x))p(tt(x)) 其中的两个条件分布分别对图像转换以及转换关系预测很重要
        • 为了联合估计条件分布,TrGAN 主要由两个组件组成:(1)全局的判别器 D 使得近似描述 p ( t ′ ∣ t ( x ) ) ≈ p ( t ∣ t ( x ) ) p(t^{'}|t(x))\approx p(t|t(x)) p(tt(x))p(tt(x)) 其中简单的双头编码器-解码器网络用于区分真实图像和生成图像,并预测其中的转换关系,编码器 E n En En 从输入样本 x x x 提取特征 E n ( x ) En(x) En(x) 尔后, E n ( x ) En(x) En(x) E n ( G ( z ) ) En(G(z)) En(G(z)) 被输入最终的全连接层,计算对抗损失 V ( G , D ) V(G,D) V(G,D),同时解码器 D e De De 训练用于基于特征 E n ( x ) En(x) En(x) E n ( t ( x ) ) En(t(x)) En(t(x)) 重建对应的输入转换关系的参数 ( t ′ ) (t^{'}) (t);(2)生成器 G 使得近似描述 p ( t ( G ( z ) ) ∣ t ) ≈ p ( t ( x ) ∣ t ) p(t(G(z))|t)\approx p(t(x)|t) p(t(G(z))t)p(t(x)t),这样,给定随机的转换关系 t t t,生成器不仅要生成逼真的图像,而且要保证生成的图像的转换关系可以检测
        • 对于生成的图像 G ( z ) G(z) G(z),其转换可检测意味着:给定判别器 D 用于预测真实图像 x x x 到转换图像 t ( x ) t(x) t(x) 的转换关系 t t t,当提供 G ( z ) G(z) G(z) t ( G ( z ) ) t(G(z)) t(G(z)) 后,对应的转换关系 t t t 仍然可以正确预测,这样的正则化约束可以使生成的 G(z) 能够拥有高质量的相似的视觉结果
        • 生成器 G 和全局判别器 D 在迭代联合训练,主要是使用对抗损失 V ( G , D ) V(G,D) V(G,D),同时,转换预测损失 ℓ ( t ′ , t ) \ell(t^{'},t) (t,t) 则被加入判别器中进行训练
      • TrGAN 的中间特征匹配
        • 之前的堆叠 GAN 等工作中,中间特征匹配通常是使用预训练的分类器进行的,本文则不同,转换预测任务要求判别器提取更多游泳的关于输入视觉结构的信息,因此,可以直接使用判别器中的特征作为生成器的指导(通过 IFM)
        • 编码器块: h i h_i hi 表示原始图像 x x x 的特征, h i t h_{it} hit 表示转换图像 t ( x ) t(x) t(x) 的特征,为了实现 IFM 方法,首先将编码器分成几个不同的块 E i E_i Ei,每个编码器块是中间特征的非线性映射,特别地,高阶的特征 h i + 1 h_{i+1} hi+1 是将低阶特征 h i h_i hi 输入编码器块得到的,即 h i + 1 = E i ( h i ) h_{i+1}=E_i(h_i) hi+1=Ei(hi),其中的 h 0 = x h_0=x h0=x
        • 生成器块:可以从不同的编码器块获取不同级别的特征信息,这些特征中,更高级别的特征包含更高级的语义信息,因此 IFM 的直觉在于,生成的特征应当也可以被分解为不同层次,随着层次递增语义信息也在增强,和编码器块类似,生成器分为不同的块 G i G_i Gi,每个生成器块接收上阶段的生成特征作为输入,产生输出 h ^ i = G i ( h ^ i + 1 ) \hat h_i=G_i(\hat h_{i+1}) h^i=Gi(h^i+1)
        • 为了将编码器块的知识迁移到生成器块,本文使用对抗损失匹配中间的特征表示,具体而言,对于第二个开始的每一个编码器块和生成器块,引入判别器 D i D_i Di,在对抗训练中,该判别器用于区分生成器生成的特征和编码器提取的特征
        • 损失函数 L D i = − V ( G i , D i ) \mathcal L_{D_i}=-V(G_i,D_i) LDi=V(Gi,Di)
        • 损失函数 L G a d v = ∑ i = 1 k V ( G i , D i ) \mathcal L_G^{adv}=\sum_{i=1}^kV(G_i,D_i) LGadv=i=1kV(Gi,Di)
      • TrGAN 的特征转换匹配
        • 模型中的生成器主要有三个训练目标:(1)G 用于生成逼真的图像;(2) G i G_i Gi 用于生成逼真的特征;(3) G G G 需要生成转换关系可检测的图像,直觉上,生成的特征也应当和对应的原始特征具有转换可检测关系,基于此,本文提出新的特征转换匹配模块 FTM 正则化用于使得提取的生成特征具有更多高质量的视觉信息
        • 将特征之间的转换关系记为 h i t = f i t ( h i ) h_{it}=f_{it}(h_i) hit=fit(hi),本文目标在于对于每一层的特征都能够在真实的特征和生成特征之间能够反映相同的转换关系,使得提取的生成特征能够包含高质量的视觉线索,反映相同的特征转换,对于初始 i=0, f i t = t f_{it}=t fit=t,但是之后的 f i t f_{it} fit 未知
        • 实现的 FTM 为特征转换网络 T i T_i Ti 接收 h i h_i hi 作为输入,输出 T i ( h i , t ) T_i(h_i,t) Ti(hi,t)
        • 损失函数 L T i = 0.5 ∥ T i ( h i , t ) − h i t ∥ 2 2 \mathcal L_{T_i}=0.5\|T_i(h_i,t)-h_{it}\|_2^2 LTi=0.5Ti(hi,t)hit22
        • 应用 FTM 的转换损失函数 L G t r a n s = ∑ i = 1 k E h ^ i ∼ p g ( h ^ i ) E t ∼ p ( t ) ℓ ( t ′ , t ) \mathcal L_G^{trans}=\sum_{i=1}^k\mathbb E_{\hat h_i \sim p_g(\hat h_i)}\mathbb E_{t \sim p(t)}\ell(t^{'},t) LGtrans=i=1kEh^ipg(h^i)Etp(t)(t,t)
      • 总结
        • 定义的转换预测损失 ℓ ( t ′ , t ) = 0.5 ∥ M ( θ ′ ) − M ( θ ) ∥ 2 2 \ell(t^{'},t)=0.5\|M(\theta^{'})-M(\theta)\|_2^2 (t,t)=0.5M(θ)M(θ)22
        • 生成器损失 L G = L G g l o b a l + λ 1 L G a d v + λ 2 L G t r a n \mathcal L_G=\mathcal L_G^{global}+ \lambda_1\mathcal L_G^{adv}+\lambda_2\mathcal L_G^{tran} LG=LGglobal+λ1LGadv+λ2LGtran
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值