(PaddlePaddle 论文复现) Few-shot Video-to-Video Synthesis解读（一）起源

最新推荐文章于 2024-04-25 09:44:43 发布

m0_46655010

最新推荐文章于 2024-04-25 09:44:43 发布

阅读量501

点赞数

本文链接：https://blog.csdn.net/m0_46655010/article/details/107848410

版权

本文是关于PaddlePaddle平台上的Few-shot Video-to-Video Synthesis论文复现的解读，重点介绍了图像翻译领域的三篇重要论文：pix2pix、pix2pixHD和vid2vid。从CGAN的基础出发，探讨了如何通过条件变量提升生成效果，以及在生成高清图像和视频时面临的挑战和解决方案。

摘要由CSDN通过智能技术生成

PaddlePaddle 论文复现

课程链接 https://aistudio.baidu.com/aistudio/education/group/info/1340

Few-shot Video-to-Video Synthesis解读（一）起源

Few-shot Video-to-Video Synthesis使用了GAN的基础原理，在应用领域上，可以分类到图像翻译。既然为图像翻译领域，自然绕不过，它的三位前辈，也是其实现基础的3篇论文。pix2pix,pix2pixHD,vid2vid

这只是一个大纲，后续还有很多不严谨的地方需要修改

CGAN

pix2pix是图像翻译的开山之作，虽说是开山之作，但是其并非提出了全新的思想。其思想来源源于GAN的变体——CGAN（conditional GAN）。
这里简单介绍一下CGAN的特点，CGAN不同于传统的GAN（以DCGAN为代表），在其输入流中引入了条件变量 X 。DCGAN中，生成器的全部数据都来源于Gaussian Noise，而判别器则收到不同的数据分别是real data 和生成器生成的fake data。而在CGAN中，条件变量被添加到Gaussain Noise和real data中，因此，生成器生成的fake data将受到条件变量 X 的影响（或者称为条件约束）。而CGAN的核心就在于此，由于Gaussian Noise的每次生成的具体值是不固定的，我们只是通过设计一个数据分布，从中进行采样得到的输入数据。所以对于数据的性质（或者说各个维度表示的特征的意义）的影响是不可知的。数据分布，描述的是一组数据的分布规律，对于当个数据，数据分布是没有意义的，我们更关心的单个数据的维度（dimension），因为每一个维度，都可能具有一个实际的物理意义，同时影响着输出的结果。另一方面，由于Gaussain Noise的随机属性，使得其具有很好的泛化意义，即不具有指向性，适合做生成数据。但是，当我们需要对数据添加指向性的时候，这也就成为了一个重要的问题。而条件变量 X 则就是解决这个问题的一种方法。
条件变量 X 不用于Gaussain Noise，由于其是人为引入的，因此，我们可以确定变量的属性，从而直接影响生成器的生成方向。这一点是CGAN的核心。从数学上说，条件变量 X 的引入