本文介绍 让蒙娜丽莎活过来的视频驱动人像生成
 This article was original written by Jin Tian, welcome re-post, first come with https://jinfagang.github.io . but please keep this copyright info, thanks, any question could be asked via wechat:
jintianiloveu
图像生成里面有一个有趣的子任务,即图像视频生成,简单来说就是给你一张静态的图片,你通过各种方法把它驱动起来。而其中一个思路就是用一段已经知道的视频,去生成和这段视频风格相似的视频。
听起来比较复杂,看下面的几个gif图片就知道这是完成啥任务了:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XFGUZDKa-1590138208753)(https://s1.ax1x.com/2020/04/07/G2g86f.gif)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ydnIzCwa-1590138208757)(https://github.com/AliaksandrSiarohin/first-order-model/raw/master/sup-mat/vox-teaser.gif)]
简单来说就是将一张静态的图片,通过一个video去驱动它,生成一模一样的表情和动作。比如上图的川普的动作,被冰与火之歌的人物所模仿。最上面的蒙娜丽莎开始咧嘴微笑,要知道这可是600多年前的人物画像,现在终于开口说话了。
原理
我们其实很好奇这个网络模型的原理。事实上,图像动画包括生成视频序列,以便根据驾驶视频的运动对源图像进行动画处理。 这个框架无需使用任何注释或先前信息即可解决此问题关于要动画的特定对象。 一旦接受了一系列视频训练,同一类别的物体(例如,面孔,人体),这个方法可以应用此类的任何对象。 为此,将外观和运动分离使用自我监督的公式表示信息。 为了支持复杂的动作,使用由一组学习到的关键点以及它们组成的表示形式局部仿射变换。 生成器网络对在目标运动并结合从源图像中提取的外观和来自行车视频的运动。 这个框架在多样化方面得分最高基准以及各种对象类别。
在之前有Nvidia出品的vid2vid进行视频生成,但是那个方法并非直接端到达u端,比如需要先进性人脸关键点检测,或者需要进行姿态检测,然后再进行风格迁移和动作转换。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KCRFwTHS-1590138208762)(https://s1.ax1x.com/2020/04/08/GfE5kt.png)]
这篇文章采用方法是一种盲关键点法,不针对热定问题提取特定的关键带你,而是采用一种自监督学习方法进行自主学习,然后对学习到的盲点进行空间变换,同时学习动作与动作之间的场变换,最终合成动作连续的风格迁移视频。
代码
原始代码可以在神力平台获取:
http://manaai.cn
下载代码之后,直接运行:
python3 demo.py --config config/vox-256.yaml --driving_video data/a.mp4 --source_image a.png --checkpoint vox-cpk.pth.tar --relative --adapt_scale
就可以对静态图片进行风格迁移。
对应的模型可以参考代码readme获取。
蒙娜丽莎画像生成效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYIMPEx5-1590138208765)(https://s1.ax1x.com/2020/04/07/G2g86f.gif)]
这个生成的效果还是非常生动的!!
上车
如果你对GAN感兴趣,欢迎加入我们的QQ交流群1037662480,入群暗号:GAN。然后可以进一步加入我们的wx群。
http://t.manaai.cn