paper阅读总结篇(1):Everybody Dance Now

Motion Transfer

前言

Everybody Dance Now是一篇基于pose的keypoint estimation来进行motion transfer,核心思路是对每一个人都生成一个Generator,这个generator可以根据输入的火柴人pose生成真人的视频。另一个出彩的一点就是Global pose normalization

论文主页

https://carolineec.github.io/everybody_dance_now/
视频demo可以在主页看到,paper链接也在,就不在此具体列出。

具体内容

(1):input

. Given two videos – one of a target person whose appearance we wish to synthesize, and the other of a source subject whose motion we wish to impose onto our target person.

(2):特殊处理

We add two components to improve the quality of our results: To encourage the temporal smoothness of our generated videos, we condition the prediction at each frame on that of the previous time step. To increase facial realism in our results we include a specialized GAN trained to generate the target person‘s face.
paper考虑了时间上的连贯性因素,在loss上加入了前面的几帧,同时人脸需要专门的GAN去生成。

(3):overview

we divide our pipeline into three stages – pose detection, global pose normalization, and mapping from normalized pose stick figures to the target subject.
图1:model的整体流程
简单介绍一下:
1): ( x , y ) (x,y) (x,y)是一对本身的pair,其中 x x x是火柴人figure,从 y y y中提取的提取的关键点连线画出来的结果, y y y本身从dataset中提取出来。
2): P是现有的pose detector,比如open pose之类的model,直接拿pretrain好的model做出来火柴人
3): G是根据火柴人figure去生成和 y y y一样的图片,然后D的目标是区分 ( x , y ) (x,y) (x,y) ( x , G ( x ) ) (x,G(x)) (x,G(x)),判定 ( x , y ) (x,y) (x,y)为real,另一对是fake。然后区分 G ( x ) G(x) G(x) y y y本身的差距,引用了pretrain的VGG去算feature之间的差距.
4): 现在给你一个新人物和他的pose y ′ y^{'} y,首先我们可以通过P生成火柴人pose,然后要进行normalization处理去生成新的 G ( x ) G(x) G(x) pose。首先人变成了 y y y这个人,其次他拥有了 y ′ y^{'} y的pose,然后就成功实现了motion transfer。

(4): Global Pose Normalization Details

When transferring motion between two subjects, it may be necessary to transform the pose keypoints of the source person so that they appear in accordance with the target person’s body shape and proportion as in the Transfer section of Figure 3.
原因:人物之间的位置,人的身体比例,摄像头的位置距离的不同,可能都会对我们生成的结果造成影响,所以便提出了人体的normalization的具体想法。具体细节在paper的9.1 提出。transformation是根据source和target来进行计算的,并不是根据单独一个人来算。
To find a transformation in terms of scale and translation between a source pose and a target pose, we find the minimum and maximum ankle positions in image coordinates of each subject while they are on the ground (i.e. feet raised in the air are not considered).These coordinates represent the farthest and closest distances to the camera respectively). The maximum ankle position is the foot coordinate closest to the bottom of the image.
此处省略后面内容,可能我后面需要用到时候会再次补充。

loss fucntion

具体参考paper第5部分,本作使用了pix2pixHD框架,pix2pixHD的loss的分析可以参考:
https://medium.com/@xiaosean5408/pix2pixhd簡介-high-resolution-image-synthesis-and-semantic-manipulation-with-conditional-gans-2099bd492f5

后记

大概自己读paper时候非常健忘,所以希望通过写自己博客的方式让自己能及时回顾当时的想法,欢迎大家有问题找我探讨,我也会持续更新相关内容,如果哪里有错误,欢迎大家及时指出。然后本篇内容有些我目前暂时还用不到,如果后面用到我会更新具体内容。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值