(PaddlePaddle 论文复现) Few-shot Video-to-Video Synthesis解读(一) 起源

本文是关于PaddlePaddle平台上的Few-shot Video-to-Video Synthesis论文复现的解读,重点介绍了图像翻译领域的三篇重要论文:pix2pix、pix2pixHD和vid2vid。从CGAN的基础出发,探讨了如何通过条件变量提升生成效果,以及在生成高清图像和视频时面临的挑战和解决方案。
摘要由CSDN通过智能技术生成

PaddlePaddle 论文复现

课程链接 https://aistudio.baidu.com/aistudio/education/group/info/1340

Few-shot Video-to-Video Synthesis解读(一) 起源

Few-shot Video-to-Video Synthesis使用了GAN的基础原理,在应用领域上,可以分类到图像翻译。既然为图像翻译领域,自然绕不过,它的三位前辈,也是其实现基础的3篇论文。pix2pix,pix2pixHD,vid2vid

这只是一个大纲,后续还有很多不严谨的地方需要修改

CGAN

pix2pix是图像翻译的开山之作,虽说是开山之作,但是其并非提出了全新的思想。其思想来源源于GAN的变体——CGAN(conditional GAN)。
这里简单介绍一下CGAN的特点,CGAN不同于传统的GAN(以DCGAN为代表),在其输入流中引入了条件变量 X 。DCGAN中,生成器的全部数据都来源于Gaussian Noise,而判别器则收到不同的数据分别是real data 和生成器生成的fake data。而在CGAN中,条件变量被添加到Gaussain Noise和real data中,因此,生成器生成的fake data将受到条件变量 X 的影响(或者称为条件约束)。而CGAN的核心就在于此,由于Gaussian Noise的每次生成的具体值是不固定的,我们只是通过设计一个数据分布,从中进行采样得到的输入数据。所以对于数据的性质(或者说各个维度表示的特征的意义)的影响是不可知的。数据分布,描述的是一组数据的分布规律,对于当个数据,数据分布是没有意义的,我们更关心的单个数据的维度(dimension),因为每一个维度,都可能具有一个实际的物理意义,同时影响着输出的结果。另一方面,由于Gaussain Noise的随机属性,使得其具有很好的泛化意义,即不具有指向性,适合做生成数据。但是,当我们需要对数据添加指向性的时候,这也就成为了一个重要的问题。而条件变量 X 则就是解决这个问题的一种方法。
条件变量 X 不用于Gaussain Noise,由于其是人为引入的,因此,我们可以确定变量的属性,从而直接影响生成器的生成方向。这一点是CGAN的核心。从数学上说,条件变量 X 的引入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值