万物可动！对First Order Motion Model for Image Animation大作基于飞桨的论文复现

最新推荐文章于 2023-07-27 10:51:10 发布

shanheyijiu

最新推荐文章于 2023-07-27 10:51:10 发布

阅读量4.9k

点赞数 1

分类专栏：学术科研编程设计文章标签：深度学习

本文链接：https://blog.csdn.net/shanheyijiu/article/details/107839248

版权

编程设计同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

学术科研

1 篇文章 0 订阅

订阅专栏

简介：

这篇文章完成的任务是image animation，给定一张源图片（右侧上面第一行），给定一个驱动视频（左侧为视频），生成一段视频，其中主角是源图片，动作是驱动视频中的动作。如下图所示，源图像通常包含一个主体，驱动视频包含主体及其一系列动作。通过这一示例实现，我们可以知道，这一技术能够用在表情迁移、动作迁移、虚拟换衣等应用上，比较有意思。该论文原文、代码等资源在这里。

背景：

以左上角的人脸表情迁移为例，给定一个源人物，给定一个驱动视频，可以生成一个视频，其中主体是源人物，视频中源人物的表情是由驱动视频中的表情所确定的。通常情况下，我们需要对源人物进行人脸关键点标注、进行表情迁移的模型训练。

但是这篇文章提出的方法只需要在同类别物体的数据集上进行训练即可，比如实现太极动作迁移就用太极视频数据集进行训练，想要达到表情迁移的效果就使用人脸视频数据集voxceleb进行训练。训练好后，我们使用对应的预训练模型就可以达到前言中实时image animation的操作。

这篇文章的工作以GAN，Conditional GAN和Pixel2pixel工作为基础。而在Image Animation工作方面，Monkey-Net是本文作者们先前的工作，同时也要参考X2face的工作才能更好的了解本文的工作。

实现方法：

整个模型训练过程是图像重建的过程，输入是源图像和驱动图像，输出是保留源图像物体信息的含有驱动图像姿态的新图像，其中输入的两张图像来源于同一个视频，即同一个物体信息，那么整个训练过程就是驱动图像的重建过程。

大体上来说分成两个模块，一个是motion estimation module，另一个是image generation module。其中motion estimation module输出有两个，一个是dense motion field，表征了驱动图像D中的每个关键点到源图像S的映射关系；一个是occlusion mask，表明了在最终生成的图像中，对于驱动图像D而言，哪部分可以通过D扭曲得到，哪部分可以通过inpaint得到。在image generation module中，输入S，在encoder得到的特征层中进行形变，然后decoder回去，得到最终的输出。

基于百度飞桨的论文复现：

百度飞桨是源于产业实践的开源深度学习平台，百度大脑是应用飞桨进行AI项目开发的开放平台，百度网站用户可以统一用户名访问，使用起来非常方便，还有免费的GPU资源可用。AI Studio里面更是有很多与AI相关的课程可以免费学习，例如我参加的这个“百度顶会论文复现营”，https://aistudio.baidu.com/aistudio/education/group/info/1340，里面干货很多，值得学习参考。

本文会持续更新，使用飞桨进行这一工作的复现。

shanheyijiu

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
万物可动！对First Order Motion Model for Image Animation大作基于飞桨的论文复现

简介：这篇文章完成的任务是image animation，给定一张源图片（右侧上面第一行），给定一个驱动视频（左侧为视频），生成一段视频，其中主角是源图片，动作是驱动视频中的动作。如下图所示，源图像通常包含一个主体，驱动视频包含一系列动作。背景：以左上角的人脸表情迁移为例，给定一个源人物，给定一个驱动视频，可以生成一个视频，其中主体是源人物，视频中源人物的表情是由驱动视频中的表情所确定的。通常情况下，我们需要对源人物进行人脸关键点标注、进行表情迁移的模型训练。 ...
复制链接

扫一扫

专栏目录