最近北京大学的几位研究者在ACM会议上发表了基于变换生成的单张图像视频生成。原论文题目为《Video Imagination from a Single Image with Transformation Generation 》。
论文代码在Github上也给了出来https://github.com/gitpub327/VideoImagination。
当看到这篇论文时,瞬间就被吸引,是因为生成的视频效果确实很好。毕竟在几个月前,导师让想想如何进行这种视频生成时,自己脑子一片空白。2016年,MIT人工智能实验室的研究员利用GAN来自动生成视频,当时已经惊讶于GAN的强大,但是从生成的视频结果来看,自动生成的视频结果还是不太真实,视频中的物体场景常常被渲染成模糊的一团。而北京大学的这篇论文里面的生成的视频结果十分真实,也没有出现场景模糊的情况。
正好趁这个机会,啃啃视频生成的论文,给出自己的一些总结。
《Generating Videos with Scene Dynamics》
这篇论文的主要思想是用生成对抗网络来进行视频生成。在生成器中,利用一个100维的高斯噪声作为生成器的输入。文章假设视频的背景是静态的,前景是动态的,旨在对运动的物体进行建模。于是提出了一个“双流架构”的生成器,由两个网络组成,一个网络用2维卷积来生成静态背景,一个网络用三维卷积来生成动态的前景。最后将前景放到背景中,形成视频,作为生成器的输出。
生成器