《Image Generation and Translation with Disentangled Representations 》论文解读--解开图像表示的生成与转换

Image Generation and Translation with Disentangled Representations 》 解读

论文下载地址:点击打开链接

如果下载链接出现了问题,回复我,我会发一个链接给下载。


一、论文解读

1. 原始GANs在图像生成与转换的几个主要问题

注:要看原文的话,可以结合paper第一部分和第二部分可以看出原始的GANs在图像生成与转换的主要问题。这里给出如下几个总结:

(1) 原始的GANs模型不能对生成什么种类的图像进行控制。

(2) 不能提供一个能修改存在的数据样例的方法,但是能生成一个新的图像。

(3) 在图像生成和转换问题上,一个模型只能对应一个领域图像的生成和转换。

(4) 没有解开表示图像在生成和转换上的学到的问题,导致其在图像生成和转换上没有得到一个较好的表现。

(5) 原始的GANs不好训练,并且需要用全部的已有的label数据进行训练。


2. 论文的主要贡献

(1) 用一个模型实现了可控制的图像生成和图像转换。

说明:这一点的重要性具体可见paper的第二部分(Relatedt Work),这里文章用了较多的篇幅说明目前大多数的GANs在iamge-to-image的问题上,一个模型只能针对于一个领域图像的转换,并且效果并不是特别的好;在图像生成上同样也是效果不好,并且无法很好的生成该领域中其他的较好的图像....等等,作者引用了很多paper进行说明,可以去看一下,对GANs现有的发展情况有个了解。

(2) 论文提出的模型可以使图像在多个领域图像进行转换并且不需要多种编码解码成对的结构,并且该模型还可以探索到一些比较新奇的有关数据生成的因素,这些因素都可用于图像生成与转换。

(3)该模型只需要少量的训练标签数据,对所有训练的信息进行编码进行表示用于图像的生成。



3. 论文的idea

(3.1) 模型的结构解读

这里先给出模型的结构图,对照图进行理解:


① 模型的组成部分

鉴别器Discriminator(D),生成器Generator(G),这里的鉴别器和生成器的作用和以前的生成对抗模型一样。

编码器Ecoder(E),E的作用是将原图像X编码成有潜在表示的一个向量(vector) --Z,

Z由两部分构成Z=(u, c),u编码成非结构化的信息和噪音noise,c编码成结构化的信息和数据生成的因素(例如类标签的信息)。


② 模型结构设计的意义以及代价损失函数的计算

先介绍结构的上部分:

首先输入的原始图像X经过E的编码成Z(u,c),这里Z(Z=E(X)得到)有两部分内容:第一与原始图像X(这里需要标签数据)进行一个loss的计算并把这一部分的loss丢给G;第二部分,Z通过G(Z)生成图像G(Z),这一部分计算一个图像生成的loss,即Lrec。

结构的下部分:

结构下部分这个G的方向的意义在于:确保生成器G确实使用了c提供的信息,同时也探索了先前不知道的数据生成的因素。

G将Z(u,c)中的c进行随机打乱得到Z',然后G(Z')送入E编码器生成Z_(u' , c'),这里Z_计算一个损失Li。

-----------------------------------------------------------------------------------------------------------

以上就是整个模型的流程,接下介绍损失函数的计算以及结构设计的意义。

Lrec设计的意义:为了确保潜在表示Z的编码需要重建的原始图像的信息。我们只需要Lrec将它最小化,其计算如下:


Li设计的意义:需要所有有必要的潜在的表示Z,更加明确的c。我们要将Li最大化,我们的得到c'即(E(G(u,c)))和图像生成得到的(u,c)共同的信息。它的计算如下:


对于Li的计算,直接最大化计算比较困难,需要做一个c后边的分布P(c|x),并设计了一个辅助分布E(c|x)来估计P(c|x),只需要调解参数c,而把H(c)当做一个常数就好了。

Lsup设计的意义:增加这个损失是为了为c提供信息(不能直接指明信息),通过使用小部分有标签的数据。其计算如下:


y表示label值,y*表示预测值。

设计D的意义:1.确保图像通过G生成是真实的;2.E和G能学到更多模型反转的信息(((u; c); G(u; c)) 和(X; E(X)) 是来自E还是G);3.我们使用一个D,E模型的u能选择对应的分布。Ladv其计算如下:



③ 模型结构训练时参数的设计

通过上面的论述我们可以得到整个模型结构的损失计算:


这里的λ是权重的正则项。λ1设置为10用于监督损失,确保能学到label的信息。λ2用于重建图像的损失,设置为1。λ3和λ4设置为0~1的线性增加的数。

网络参数配置,学习速率(0.0001用于D,0.0003用于G和E),batch size设置为64,优化器使用的是比较好用的Adam optimizer(β1=0.5,β2=0.999对应于上边学习率对应模型中的参数)。

u初始化一个(-1~1)的均匀分布的值

c分成两个值,一个分类值在最后一层使用softmax得到,另一个是一个高斯的连续值。



(3.2) paper在不同数据集上采用的模型结构图




4. 论文的实验结果

对于这里我就疯狂而又简单的截几个图好了,重要的是理解论文的精髓,要是自己实现看自己的实验结果,那真的是美滋滋哇!!







二、实践理解

最后论文的总结和整篇paper一样的基调,就是重复的啰嗦和宣扬他们论文的idea,我这里就省略了。

对于paper提出来的模型通过上述的理解,各位可以试着去做做看,因为这一年要复习没有足够的精力去做,在这里我给出我以前看过,用过的一些GANs的代码,文档等资源地址,大家可以去了解,做一下。

最后,因为时间有限,有些地方可能表述的不是很准确,请各位见谅,欢迎大家一起交流。

GANs资源地址:点击打开链接

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
25篇机器学习经典论文合集,有需要欢迎积分自取 Efficient sparse coding algorithms论文附有代码 [1] Zheng S, Kwok J T. Follow the moving leader in deep learning[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 4110-4119. [2] Kalai A, Vempala S. Efficient algorithms for online decision problems[J]. Journal of Computer and System Sciences, 2005, 71(3): 291-307. [3] Kingma, D. and Ba, J. Adam: A method for stochastic optimization. In Proceedings of the International Conference for Learning Representations, 2015. [4] Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[C]//Advances in neural information processing systems. 2007: 801-808. [5] Fan J, Ding L, Chen Y, et al. Factor Group-Sparse Regularization for Efficient Low-Rank Matrix Recovery[J]. 2019. [6] Z. Lai, Y. Chen, J. Wu, W. W. Keung, and F. Shen, “Jointly sparse hashing for image retrieval,” IEEE Transactions on Image Processing, vol. 27, no. 12, pp. 6147–6158, 2018. [7] Z. Zhang, Y. Chen, and V. Saligrama, “Efficient training of very deep neural networks for supervised hashing,” in Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition, 2016, pp. 1487–1495. [8] Wei-Shi Zheng, Shaogang Gong, Tao Xiang. Person re-identification by probabilistic relative distance comparison[C]// CVPR 2011. IEEE, 2011. [9] Liao S, Hu Y, Zhu X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2197-2206. [10] Liu X, Li H, Shao J, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially labeled data[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 338-354. [11] Yao T, Pan Y, Li Y, et al. Exploring visual relationship for image captioning[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 684-699. [12] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang., ”Image Super-Resolution Using Deep Convolutional Networks, ” IEEE Transactions on Pattern Analysis and Machine Intelligence, Preprint, 2015. [13] M. D. Zeiler, D. Krishnan, Taylor, G. W., and R. Fergus, "Deconvolutional networks," in Proc. IEEE Comput. Soc. Conf. Comput. Vision Pattern Recog., 2010, pp. 2528-2535. [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. [15] Girshick R . Fast R-CNN[J]. Computer Science, 2015. [16] Joseph Redmon, Santosh Divvala, Ross Girshick, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016. [17] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. [18] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786): 504-507. [19] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105. [20] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham, 2014: 818-833. [21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9. [22] Wu, Y., & He, K. (2018). Group normalization. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 3-19). [23] Goodfellow I,Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680. [24] Tran, L., Yin, X., & Liu, X. (2017). Disentangled representation learning gan for pose-invariant face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1415-1424). [25] Pu, Y., Gan, Z., Henao, R., Yuan, X., Li, C., Stevens, A., & Carin, L. (2016). Variational autoencoder for deep learning of images, labels and captions. In Advances in neural information processing systems (pp. 2352-2360).
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值