论文笔记-Transformation GAN for Unsupervised Image Synthesis and Representation Learning

  • 论文信息

    • 标题: Transformation GAN for Unsupervised Image Synthesis and Representation Learning
    • 作者:Jiayu Wang (wjy1031@mail.ustc.edu.cn), Wengang Zhou (zhwg),Guo-Jun Qi (guojunq@gmail.com), Zhongqian Fu (zqfu@ustc.edu.cn), Qi Tian (wywqtian@gmail.com), Houqiang Li (lihq@ustc.edu.cn)
    • 机构:中国科学技术大学
  • 代码链接

    • None
  • 论文主要贡献

    • 提出特征转换匹配方法用于更有效地捕获真实数据分布
    • 判别器和生成器之间的中间特征匹配提供额外的生成器特征空间的监督信号,提高了判别器提取的特征质量
    • TrGAN 改进了生成图像和提取的特征表示的质量
  • 论文要点翻译

    • 摘要

      • **(想要解决的问题场景)**GAN 在图像生成以及非监督学习中展现的性能优势,但是非监督 GAN 提取的特征通常难以直接运用到其他计算机视觉任务中,条件 GAN 可以一定程度上解决这个问题,但是条件 GAN 需要大量的标注数据
      • **(如何解决问题)**为了解决图像合成质量的问题和非监督条件的表示学习的性能问题,本文提出简单有效的 Transformation GAN。通常的条件 GAN 将输入数据对 p ( x , y ) p(x,y) p(x,y) 作为 GAN 学习联合分布的输入,TrGAN 则学习转换的图像 t ( x ) t(x) t(x) 和转换 t 之间的联合分布,具体而言,给定一个随机采样的转换关系 t,训练 D 用以估计输入转换,然后是对原 GAN 的正常训练过程,中间的特征匹配结合特征转换的匹配也使得生成特征的正则化能力得到改进。
      • **(解决得怎么样)**实验结果表明:合成图像的质量和提取得到的特征表示都证明了方法的有效性
    • 引言

      • 表示学习在计算机视觉任务中得重要性,DNN 在表示学习中取得得进展,预训练 DNN 在任务中的运用;但是,DNN 的训练并不简单,需要大量的标注数据,当数据不足,则 DNN 的性能受到影响,因此,非监督学习占据其中的一席之地
      • 生成模型可以使用无标注数据,驳货其中的真实数据分布规律,为了生成新的内容,生成模型需要对训练数据有较好的理解,能从其中学习到有效的特征,因此生成模型是无监督方法中的重要分支。生成模型的典型例子就是 GAN,判别器可以有效从输入中提取判别真实数据与合成数据差别的特征,判别器的中间特征表示可以作为输入中提取的特征表示,但是,通常 GAN 的训练并不稳定,训练过程中得到的分布规律也不稳定,对判别器的表示特征学习影响较大,这个问题可以通过条件图像生成,即条件 GAN 解决。
      • 自监督方法也是无监督方法的重要分支,自监督方法从数据中寻找自监督信息,利用源数据设置自监督目标用于训练 DNN,比如自监督 GAN (【32】SS-GAN) 利用图像中的旋转度作为训练中的辅助目标,判别器用于学习预测旋转的度数,这使得 GAN 可以利用图像的转换关系作为自监督信号,在利用条件 GAN 的优势的同时,不需要标注数据,但是 SS-GAN 中的旋转检测只能用于生成器的输出,这并不足以应用到其他地方,实际上,为了提高生成图像的质量,通常也需要对生成器的中间特征表示进行正则化,也就是对特征转换的匹配
      • 本文的 TrGAN 即用于提高非监督的特征表示学习和无监督的图像合成,使用自监督 GAN 的训练过程,重新设计了自监督信号和训练方法,受到自动编码转换(AET【39】)的启示,采用投影转换替代旋转,基于原图像与转换的图像,预测这其中的转换关系,使得模型能够捕获转换带来的集合结构的相对转换;其次,方法将生成器和判别器分解成为几个 block,再匹配判别器与生成器之间的特征表示;最后,引入特征转换正则化,生成器可以生成转换可检测的中间特征表示和图像
    • 相关工作

      • 自编码器。训练中,编码器用于输出有效的、可以用于重建原图像的特征表示,对应的解码器利用输出的特征表示重建原图像。自编码器是无监督学习方法的一个重要手段
      • GAN。利用 G 和 D 的博弈,提高生成器的图像生成质量,DCGAN 利用判别器中的中间特征表示作为输入图像的特征表示,而噪声则作为输出图像的表示。CGAN 用于提高 GAN 训练的稳定性,但是 CGAN 的主要不足在于对大量标注数据的需求
      • 自监督学习。
      • 中间特征匹配。
    • 方法

      • GAN 的背景知识,(G 和 D 如何博弈)

      • TrGAN 框架

        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tcdkhkNC-1596644510520)(C:\Users\Kingsley\AppData\Roaming\Typora\typora-user-images\image-20200728093537161.png)]

        通常的 CGAN 捕捉数据对 p ( x , y ) p(x,y) p(x,y) 之间的联合分布关系,TrGAN 步骤转换图像与转换关系之间的联合分布。给定转换关系 t ∼ p ( t ) t \sim p(t) tp(t) ,将 t 作用到图像 x x x 上,得到转换的图像 t ( x ) t(x) t(x),则联合分布 p ( t ( x ) , x ) p(t(x), x) p(t(x),x) 可以有两种方式分解:(1) p ( t ( x ) , t ) = p ( t ) p ( t ( x ) ∣ t ) p(t(x),t) = p(t)p(t(x) | t) p(t(x),t)=p(t)p(t(x)t) 和(2) p ( t ( x ) , t ) = p ( t ( x ) ) p ( t ∣ t ( x ) ) p(t(x), t)=p(t(x))p(t|t(x)) p(t(x),t)=p(t(x))p(tt(x)),两个条件分布分别对转换的图像以及转换关系的预测至关重要

        为了联合估计两个条件概率分布,TrGAN 主要由两个部分组成:(1)全局判别器 D 近似描述 p ( t ′ ∣ t ( x ) ) ≈ p ( t ∣ t ( x ) ) p(t^{'}|t(x))\approx p(t|t(x)) p(tt(x))p(tt(x)),其中,D 的两个输入用于判断图像的真假并预测转换关系。 E n E_n En 用于从给定的样本 x x x 中提取特征, E n ( x ) E_n(x) En(x) E n ( G ( z ) ) E_n(G(z)) En(G(z)) 输入到全连接层,计算对抗 loss V ( G , D ) V(G,D) V(G,D),同时,解码器 D e D_e De 训练后可以基于特征 E n ( x ) E_n(x) En(x) E n ( t ( x ) ) E_n(t(x)) En(t(x)) 重建对应的输入转换关系的参数 t ′ t^{'} t,(2)生成器 G 近似描述分布 p ( t ( G ( z ) ) ∣ t ) ≈ p ( t ( x ) ∣ t ) p(t(G(z))|t) \approx p(t(x)|t) p(t(G(z))t)p(t(x)t),在此情况下,给定随机采样的转换关系 t t t,生成器的目标不仅是生成逼真的图像,而且还要能保证生成图像的转换关系的可检测性。

        生成图像 G ( z ) G(z) G(z) 中,转换关系的可检测性指的是:判别器 D 用于预测真实图像 x x x 和真实图像的转换 t ( x ) t(x) t(x) 上的转换关系 t t t,如果将生成图像 G ( z ) G(z) G(z) 和生成图像的转换 t ( G ( z ) ) t(G(z)) t(G(z)) 作为 D 的输入,则对应的转换关系 t 依然可以被识别。这个正则约束可以使得生成图像具有高质量的视觉结构,与真实图像相比具有必要的转换关系

        生成器和全局判别器的联合训练:根据对抗 loss V(G,D) 迭代更新各自的参数,同时,转换关系预测 loss l ( t ′ , t ) l(t^{'},t) l(t,t) 加到判别器的 loss 中, t ′ = D [ x , t ( x ) ] t'=D[x, t(x)] t=D[x,t(x)],判别器 D 训练可以基于输入的真实图像和真实图像的转换预测转换关系。对于参数化的转换关系,每个转换关系可以表示为其包含的参数,使用参数的2范数作为 loss

        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dUOp3RIV-1596644510523)(C:\Users\Kingsley\AppData\Roaming\Typora\typora-user-images\image-20200728110533782.png)]

      • TrGAN 的中间特征匹配:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tRrz2CzX-1596644510525)(C:\Users\Kingsley\AppData\Roaming\Typora\typora-user-images\image-20200728111040169.png)]

      • (1)编码块: h i h_i hi 表示原始图像 x x x 的特征, h i t h_{it} hit 表示转换图像 t ( x ) t(x) t(x) 的特征,为u了实现 IFM 方法,将编码器 E n E_n En 分解成几个块 E i E_i Ei,每个块表示中间特征的非线性映射函数,高级的特征是通过低一级的特征输入对应的编码块得到的

      • (2)生成器块:利用不同的编码器块。可以学习得到不同级别的特征表示,更高级的特征包含更高级的语义信息,因此,IFM的直观想法在于:生成的特征应该分解成多个级别,级别之间有语义的层次性,G 分解为多个块,每个块可以看作是对应的编码器块的逆函数,将特征进行输出重建

      • 为了能够将编码器块的知识迁移到同一级的生成器块,使用对抗 loss 将中间特征表示进行匹配

      • TrGAN 的特征转换匹配

      • G的三个训练目标:(1)生成图像尽可能逼真;(2)生成的中间特征表示尽可能与原有特征相似;(3)生成的图像转换关系可检测

      • h i h_i hi h i t h_{it} hit 之间的映射关系表示为 h i t = f i t ( h i ) h_{it}=f_{it}(h_i) hit=fit(hi),转换关系的可检测性指的是通过 D 预测的转换关系同时也可以从生成图像及其特征中检测到对应的转换关系,因此可以对真实图像及生成图像各自的转换关系进行匹配

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值