First Order Motion Model for Image Animation 论文笔记

本文探讨了一种无需预训练标注数据的自监督训练方法,使用First Order Motion Model进行图像动画。模型包括运动估计模块和图像生成模块,通过估计稠密运动场和遮罩层来实现。关键点检测器采用自动编码器结构,同时输出关键点和仿射变换。图像生成模块则根据这些信息渲染新的图像。此外,文章还介绍了如何生成遮罩以处理遮挡问题,并使用损失函数优化结果。
摘要由CSDN通过智能技术生成

文中1希望能够摒弃使用标注的数据进行预训练,转而使用自监督训练,不直接生成整张图片,通过标注keypoints和遮罩层分别生成。

模型结构

模型主要分为 motion estimation module 与 image generation module 两部分。
在这里插入图片描述

motion estimation module

motion estimation module 同时输出 dense motion field T ^ S ← D \hat{\mathcal{T}}_{\mathrm{S}\leftarrow \mathrm{D}} T^SD和 occlusion mask O ^ S ← D \hat{\mathcal{O}}_{\mathbf{S} \leftarrow \mathbf{D}} O^SD。其中 dense motion field 将Driving Video D D D中的每一点映射到Source Image图像 S S S上,其中应用了反向光流。 occlusion mask 标注了能够通过变换得到的部分与需要生成的部分。在计算过程中,假定了一个中间量 R R R,分别计算 T S ← R \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}} TSR T D ← R \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}} TDR最后合成为 T S ← D {\mathcal{T}}_{\mathbf{S} \leftarrow \mathbf{D}} TSD

计算 T S ← D {\mathcal{T}}_{\mathbf{S} \leftarrow \mathbf{D}} TSD时使用了Keypoint Detector 使用了auto-encoder结构,抽出其中的特征keypoints,再使用局部仿射变换。最后同时输出keypoint 与仿射变换。加入仿射变换能使模型应对更复杂的变换。将两组 T \mathcal{T} T结合Source Image后属兔Dense Motion输出 T ^ S ← D \hat{\mathcal{T}}_{\mathrm{S}\leftarrow \mathrm{D}} T^SD O ^ S ← D \hat{\mathcal{O}}_{\mathbf{S} \leftarrow \mathbf{D}} O^SD

image generation module

根据motion estimation module给出的信息与source image渲染图片。

细节

T S ← D {\mathcal{T}}_{\mathbf{S} \leftarrow \mathbf{D}} TSD

T S ← D {\mathcal{T}}_{\mathbf{S} \leftarrow \mathbf{D}} TSD分解成 T S ← R \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}} TSR T D ← R \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}} TDR,并将问题转化为 T X ← D {\mathcal{T}}_{\mathbf{X} \leftarrow \mathbf{D}} TXD,其中 X X X为给定的一张图片。并求关于 R R R的keypoints p 1 , . . . p k p_1,...p_k p1,...pk在其领域的一阶泰勒展开。对于图像 X , S , D X,S,D X,S,D中的keypoints用 z z z表示。下面是 T X ← R {\mathcal{T}}_{\mathbf{X} \leftarrow \mathbf{R}} TXR p k p_k pk处的一阶展开:
T X ← R ( p ) = T X ← R ( p k ) + ( d d p T X ← R ( p ) ∣ p = p k ) ( p − p k ) + o ( ∥ p − p k ∥ ) \mathcal{T}_{\mathbf{X} \leftarrow \mathbf{R}}(p)=\mathcal{T}_{\mathbf{X} \leftarrow \mathbf{R}}\left(p_{k}\right)+\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{X} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)\left(p-p_{k}\right)+o\left(\left\|p-p_{k}\right\|\right) TXR(p)=TXR(pk)+(dpdTXR(p)p=pk)(ppk)+

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值