PaddlePaddle 论文复现
课程链接 https://aistudio.baidu.com/aistudio/education/group/info/1340
Few-shot Video-to-Video Synthesis解读(一) 起源
Few-shot Video-to-Video Synthesis使用了GAN的基础原理,在应用领域上,可以分类到图像翻译。既然为图像翻译领域,自然绕不过,它的三位前辈,也是其实现基础的3篇论文。pix2pix,pix2pixHD,vid2vid
这只是一个大纲,后续还有很多不严谨的地方需要修改
CGAN
pix2pix是图像翻译的开山之作,虽说是开山之作,但是其并非提出了全新的思想。其思想来源源于GAN的变体——CGAN(conditional GAN)。
这里简单介绍一下CGAN的特点,CGAN不同于传统的GAN(以DCGAN为代表),在其输入流中引入了条件变量 X 。DCGAN中,生成器的全部数据都来源于Gaussian Noise,而判别器则收到不同的数据分别是real data 和生成器生成的fake data。而在CGAN中,条件变量被添加到Gaussain Noise和real data中,因此,生成器生成的fake data将受到条件变量 X 的影响(或者称为条件约束)。而CGAN的核心就在于此,由于Gaussian Noise的每次生成的具体值是不固定的,我们只是通过设计一个数据分布,从中进行采样得到的输入数据。所以对于数据的性质(或者说各个维度表示的特征的意义)的影响是不可知的。数据分布,描述的是一组数据的分布规律,对于当个数据,数据分布是没有意义的,我们更关心的单个数据的维度(dimension),因为每一个维度,都可能具有一个实际的物理意义,同时影响着输出的结果。另一方面,由于Gaussain Noise的随机属性,使得其具有很好的泛化意义,即不具有指向性,适合做生成数据。但是,当我们需要对数据添加指向性的时候,这也就成为了一个重要的问题。而条件变量 X 则就是解决这个问题的一种方法。
条件变量 X 不用于Gaussain Noise,由于其是人为引入的,因此,我们可以确定变量的属性,从而直接影响生成器的生成方向。这一点是CGAN的核心。从数学上说,条件变量 X 的引入