PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering
链接
视频:
https://www.youtube.com/watch?v=gDhcRcPI1JU
arxiv:
https://arxiv.org/abs/2109.08379
简介
通过控制现有人脸的运动来生成人像图像是一项对社交媒体行业具有重大影响的重要任务。为了易于使用和直观控制,应使用语义上有意义且完全解开的参数作为修改。然而,许多现有技术不提供这种细粒度的控制或使用间接编辑方法,即模仿其他人的运动。在本文中,提出了一种人像图像神经渲染器(PIRenderer)来控制具有三维可变形人脸模型(3DMM)参数的人脸运动。所提出的模型可以根据直观的修改生成具有准确运动的照片般逼真的人像图像。直接和间接编辑任务的实验证明了该模型的优越性。同时,我们进一步扩展了这个模型,通过从音频输入中提取连续动作来处理音频驱动的面部重演任务。我们表明我们的模型可以仅从单个参考图像和驱动音频流生成具有令人信服的运动的连贯视频。我们的源代码可在:
https://github.com/RenYurui/PIRender

图1。我们的PIRenderer产生的示例结果。该模型可以根据用户指定的运动(顶部)、另一个人的运动(中部)和音频生成的运动(底部)生成照片逼真的肖像图像。
1. 介绍
人像图像是日常生活中广泛使用的最重要的照片图形描述之一。通过直观地控制给定人脸的姿势和表情(见图1)来编辑人像图像是一项重要任务,在虚拟现实、电影制作、电影制作、电影制作、电影制作、电影制作、电影制作等领域有着广泛的应用,和下一代通信。然而,启用这种编辑是极具挑战性的,因为它需要算法感知给定人脸的可靠3D几何形状。同时,人类视觉系统对肖像图像的敏锐性要求算法生成照片逼真的人脸和背景,这使得任务更加艰巨。
最近,生成性对抗网络(GANs)[14]的进展在合成真实人脸方面取得了巨大进展[5,22,9]。由GANs驱动的一些方法[3,42]通过图像翻译技术解决这一任务,其目标是训练模型,使给定输入指令(如边缘)的生成图像的条件分布类似于真实图像的条件分布。一些后续算法通过提出有效的变形模块[45,49,30,8,28,31]或向目标[41,6]注入源神经纹理来实现更好的通用化。然而,绝大多数现有方法使用间接的和特定于主题的运动描述符,如边缘[42,41,28],语义分割[8],或者关键点描述目标的运动。尽管这些具有2D空间信息的描述符有利于目标图像的生成,但它们阻碍了模型以直观方式编辑肖像的能力。
为了实现直观的控制,运动描述符应该具有语义意义,这要求面部表情、头部旋转和平移被表示为完全分离的变量。参数化人脸建模方法[4,26]为使用语义参数描述3D人脸提供了强大的工具。这些方法允许在形状、表达式等参数上控制3D网格。结合这些技术的先验知识,可以期望控制类似于图形渲染处理的照片逼真肖像图像的生成。

图2。PIRenderer概述。我们的模型首先将输入运动描述符p映射到潜在向量z。然后,通过扭曲网络生成粗略图像。最后,编辑网络负责通过编辑粗略结果生成最终图像。
本文提出了一种神经绘制模型PIRenderer。给定源肖像图像和目标3DMM参数,我们的模型生成具有精确运动的照片真实感结果。如图2所示,所提出的模型分为三个部分:映射网络、扭曲网络和编辑网络。映射网络从运动描述符生成潜在向量。在向量的构造下,翘曲网络估计震源和期望目标之间的变形,并通过翘曲震源和估计的变形生成粗略结果。编辑网络从粗图像生成最终图像。实验证明了该模型的优越性和通用性。我们表明,我们的模型不仅可以通过编辑具有用户指定运动的目标图像实现直观的图像控制,还可以在间接肖像编辑任务中生成真实的结果,其中目标是模拟另一个人的运动。此外,我们通过进一步扩展该模型以处理音频驱动的面部重演任务,展示了该模型作为高效神经渲染器的潜力。多亏了高级完全分离的参数化,我们可以从“弱”控制音频中提取令人信服的运动。实验表明,我们的模型从音频流中生成各种生动的运动,并将运动转化为任意目标人的真实视频。主要贡献总结如下:
- 我们提出了一种人像图像生成模型PIRen-derer,该模型能够对面部表情、头部旋转和平移进行直观的照片真实编辑。
- 该模型可用于处理需要模仿其他个体的间接图像编辑任务。多亏了我们的分解修改和高效的神经渲染器,我们可以提取主题不可知的运动并生成逼真的视频。
- 对音频驱动的面部重演的额外扩展证明了该模型作为一种高效面部渲染器的潜力。我们的模型仅从一幅肖像图像和一个驱动音频流生成各种生动的视频。
2. 相关工作
我们将肖像编辑定义为修改给定图像或视频的面部表情、头部旋转和平移的处理。现有的方法根据控制信号的不同分为以下三部分。
通过语义参数化进行肖像编辑。使用类似于计算机动画控件的语义控件空间编辑肖像图像可以为用户提供直观的控件。一些基于模型的方法结合了3DMMs的渲染图像,并通过修改表达式[38,39]或姿势[23]参数来编辑肖像图像。这些方法取得了令人印象深刻的结果,但它们是特定于主题的方法,这意味着它们不能适用于任意的人。X2Face[45]通过使用扭曲操作对源纹理进行局部变换,实现了更好的泛化。但是,它只能编辑源肖像的姿势。最近,StyleGAN[22]等生成性对抗网络被训练用于合成真实的人脸图像。StyleRig[36]利用这些技术的优势,描述了一种通过3DMM控制StyleGAN的方法。然而,因为它被训练来映射StyleGAN的潜在变量,所以它不支持真实世界的图像编辑。PIE[35]提出了一种优化方法来计算真实图像的相应嵌入,从而解决了这一问题。然而,每个输入图像都需要迭代优化操作,这降低了算法的效率。
通过运动模拟进行肖像编辑。许多模型[45,3,42,30,41,28,31,27,48]都经过训练来模拟另一个人的运动,而不是用语义参数来描述目标运动。从生成性对抗网络[14]中衍生出的几种方法[3,46,42]已被提出,通过将其建模为图像到图像转换的视频对应物[19,52]来解决这一任务。这些方法需要对单个人的标记视频进行小时培训,以执行重演,因此必须对每个人进行再培训。一些后续方法通过提出有效的空间变换模型[30,31,28,43]或将源神经纹理注入目标[49,6,48]来实现更好的通用化。这些方法可以为任意人生成真实的图像。然而,它们依赖于特定主题(例如地标、边缘、解析贴图)或运动纠缠(例如稀疏关键点)描述符,这使得它们缺乏直观地编辑源肖像的能力。
通过音频进行肖像编辑。使用音频编辑肖像图像需要从音频流和源图像生成具有说服力的运动的连贯视频。一些方法[10,40,32,51]通过直接建模音频信号和图像之间的关系来完成这项任务。但是,由于音频输入无法完全确定目标的头部姿势,这些方法经过训练,可以生成具有固定头部姿势的视频,因此不支持全头部编辑。为了避免真实图像中不相关因素的干扰,一些模型建议首先将音频输入映射到中间结果(例如地标[33,7],3DMMs[37,47,44]),然后生成最终图像。结合3DMMs的先验知识,论文[33、37、44、47]通过合成渲染图像的真实纹理并将结果与源图像混合来生成目标。但是,这些方法需要视频输入,不能处理单个图像。同时,它们要么是特定于受试者的模型[33],要么在应用于任意个体之前需要进一步微调[37,47]。论文[45]通过将音频信号映射到潜在变量,支持从单个图像进行全头部编辑。然而,它不能模拟可能的运动变化。我们的模型可以为音频流生成各种运动,并将这些运动转换为任意目标人的真实视频。
3. 我们的方法
我们提出了一种语义神经渲染模型PIRenderer,用于可控肖像图像的生成。在目标运动描述符 p \mathbf{p} p 的指导下,我们的模型可以通过修改给定图像的面部表情、头部姿势和平移来生成照片逼真的肖像图像 I ^ \mathbf{\hat{I}} I^,同时保持其他源属性,如身份、照明和背景。在下面,我们首先提供有关运动描述符的详细信息(第3.1节)。然后,我们介绍了我们的用于人像图像扫描控制的旋转器(第3.2节)。最后,我们扩展了我们的模型来处理一个更复杂的序列生成任务——音频驱动的面部重现(第3.3节)。
3.1 目标运动描述符
为了实现直观和细粒度的编辑,应提供语义上有意义的控件。在本文中,我们采用了3DMM参数的子集作为运动描述符。使用3DMM,面的3D形状参数 S \mathbf{S} S 化为
S = S ‾ + α B i d + β B e x p \mathbf{S}=\overline{\mathbf{S}}+\boldsymbol{\alpha} \mathbf{B}_{i d}+\boldsymbol{\beta B}_{e x p} S=S+αBid+βBexp
这里 S ‾ \overline{\mathbf{S}} S 是平均面部形状, B i d \mathbf{B}_{i d} Bid 和 B exp \mathbf{B}_{\text {exp }} Bexp 是否基于200次人脸扫描,通过主成分分析(PCA)计算身份和表情的基础[26]。 系数 α ∈ R 80 \boldsymbol{\alpha} \in \mathbb{R}^{80} α∈R80 和 β ∈ R 64 \boldsymbol{\beta} \in \mathbb{R}^{64} β∈R64 分别描述面部形状和表情。头部旋转和平移表示为 R ∈ S O ( 3 ) \mathbf{R} \in S O(3) R∈SO(3) 和 t ∈ R 3 \mathbf{t} \in \mathbb{R}^{3} t∈R3. 通过系数 p i ≡ { β i , R i , t i } \mathbf{p}_{i} \equiv\left\{\boldsymbol{\beta}_{i}, \mathbf{R}_{i}, \mathbf{t}_{i}\right\} pi≡{βi,Ri,ti}, 脸部运动 i i i 可以清晰被表达。
使用现成的3D人脸重建模型[12]从真实人像图像 I t \mathbf{I}_{t} It 中提取相应的3DMM系数,用于训练和评估。然而,系数提取会产生估计误差问题。虽然3D人脸重建方法产生相对准确的结果,但误差和噪声是不可避免的。 提取的运动 p \mathbf{p} p 与真实目标运动 I t \mathbf{I}_{t} It 之前的不匹配会导致性能下降和结果不一致(见补充资料)为了缓解这一问题,使用具有连续帧的窗口的系数作为中心帧的运动描述器。因此,可以通过提取相邻帧之间的关系来预测网络以避免错误因此,运动描述符被定义为 p ≡ p i − k : i + k ≡ { β i , R i , t i , … , β i ± k , R i ± k , t i ± k } \mathbf{p} \equiv \mathbf{p}_{i-k: i+k} \equiv\left\{\boldsymbol{\beta}_{i}, \mathbf{R}_{i}, \mathbf{t}_{i}, \ldots, \boldsymbol{\beta}_{i \pm k}, \mathbf{R}_{i \pm k}, \mathbf{t}_{i \pm k\}}\right. p≡pi−k:i+k≡{βi,Ri,ti,…,βi±k,Ri±k,ti±k} 其中k是窗口的半径。
提取的运动p与目标的真实运动之间的不匹配会导致性能下降和结果不一致(见补充资料)。为了缓解这一问题,使用具有连续帧的窗口的系数作为中心帧的运动描述器。因此,可以通过提取相邻帧之间的关系来预测网络以避免错误。因此,运动描述符被定义为p≡ 圆周率−k:i+k≡ {βi,Ri,ti,…,βi±k,Ri±k,ti±k},其中k是窗口的半径。
3.2 PIRenderer的语义控制
给定源肖像图像为和目标运动描述器
p
\mathbf{p}
p,PIRenderer生成具有精确目标运动的肖像图像
I
^
\mathbf{\hat{I}}
I^,同时保持其他源信息,如身份、照明和背景。图2示出了所提出的架构的概述。该网络结合了几个完成特定任务的组件。
映射网络。我们使用映射网络
f
m
:
P
→
Z
f_{m}: \mathcal{P} \rightarrow \mathcal{Z}
fm:P→Z 实现从运动描述符
p
∈
P
\mathbf{p} \in \mathcal{P}
p∈P到潜在语义向量
z
∈
Z
\mathbf{z} \in \mathcal{Z}
z∈Z 的转换。
z = f m ( p ) \mathbf{z}=f_{m}(\mathbf{p}) z=fm(p)
学习到的潜在向量 z \mathbf{z} z 通过仿射变换进一步变换,以生成 y = ( y s , y b ) \mathbf{y}=\left(\mathbf{y}_{s}, \mathbf{y}_{b}\right) y=(ys,yb) ,从而控制自适应实例规范化(AdaIN)[18]操作。AdaIN操作负责将 z \mathbf{z} z 描述的运动注入扭曲和编辑网络。它被定义为:
AdaIN ( x i , y ) = y s , i x i − μ ( x i ) σ ( x i ) + y b , i \operatorname{AdaIN}\left(\mathbf{x}_{i}, \mathbf{y}\right)=\mathbf{y}_{s, i} \frac{\mathbf{x}_{i}-\mu\left(\mathbf{x}_{i}\right)}{\sigma\left(\mathbf{x}_{i}\right)}+\mathbf{y}_{b, i} AdaIN(xi,y)=ys,iσ(xi)xi−μ(xi)+yb,i
这里 μ ( ⋅ ) \mu(\cdot) μ(⋅) 和 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 分别表示平均值和方差。每个特征图 x i \mathbf{x}_{i} xi 是首先规范化的,然后使用 y \mathbf{y} y 的相应标量分量来缩放和偏置。
扭曲网络。卷积神经网络缺乏有效地对输入进行空间变换的能力。为了更好地保存生动的源纹理并实现更好的泛化,我们使用扭曲网络 g w g_w gw 对源图像的重要信息进行空间变换。翘曲网络可以感知源面精确的三维几何形状,并估计输入源和期望目标之间的变形。它将源图像 I s \mathbf{I_s} Is和潜在向量 z \mathbf{z} z 作为输入,并生成包含坐标偏移量的流场 w \mathbf{w} w,该坐标偏移量指定可以对源中的哪些位置进行采样以生成目标。
该网络采用自动编码器结构设计。在每个卷积层之后使用AdaIN运算来投射 z \mathbf{z} z 所描述的运动。在论文[34,31,28,21]之后,我们不估计全分辨率流场。输出流的分辨率为输入图像的1/4。在训练和评估过程中,我们对预测的流场进行采样,以匹配分辨率。在获得流场 w \mathbf{w} w 后,可通过方程式 I ^ w = w ( I s ) \hat{\mathbf{I}}_{w}=\mathbf{w}\left(\mathbf{I}_{s}\right) I^w=w(Is) 计算粗略结果 I ^ w \hat{\mathbf{I}}_{w} I^w,其中我们使用 w \mathbf{w} w 扭曲源图像。
我们用翘曲损失 L w \mathcal{L}_{w} Lw 约束翘曲网络以产生精确的流场。由于地面真实流场在本任务中不可用,我们计算了扭曲图像 I ^ w \hat{\mathbf{I}}_{w} I^w 与目标图像之间的重建误差。翘曲损失是基于Johnson等人[20]的实际损失计算的预训练VGG-19网络激活图之间的距离 ℓ 1 \ell_{1} ℓ1。
L w = ∑ i ∥ ϕ i ( I t ) − ϕ i ( I ^ w ) ∥ 1 \mathcal{L}_{w}=\sum_{i}\left\|\phi_{i}\left(\mathbf{I}_{t}\right)-\phi_{i}\left(\hat{\mathbf{I}}_{w}\right)\right\|_{1} Lw=i∑∥∥∥ϕi(It)−ϕi(I^w)∥∥∥1
其中 ϕ i {\phi_i} ϕi是VGG-19网络第i层的激活图。与[31]类似,我们通过对其应用金字塔下采样来计算多分辨率上的感知损失 I t \mathbf{I}_{t} It 和 I ^ w \hat{\mathbf{I}}_{w} I^w。
编辑网络。尽管翘曲网络在空间变换源图像方面是有效的,但它受到无法生成源中不存在的内容的限制。同时,翘曲操作引入的工件将导致性能下降。因此,设计了一个编辑网络 g e g_e ge 来修改扭曲的粗糙结果 I w ^ \mathbf{\hat{I_w}} Iw^。编辑网络将 I w ^ \mathbf{\hat{I_w}} Iw^ 、 I s \mathbf{I_s} Is 和 z \mathbf{z} z 作为输入,并生成最终预测 I ^ \mathbf{\hat{I}} I^。
I ^ = g e ( I ^ w , I s , Z ) \hat{\mathbf{I}}=g_{e}\left(\hat{\mathbf{I}}_{w}, \mathbf{I}_{s}, \mathbf{Z}\right) I^=ge(I^w,Is,Z)
编辑网络使用与翘曲网络类似的体系结构进行设计。AdaIN操作也用于注入潜在向量 z \mathbf{z} z。我们在编辑网络中使用“跳过连接层”来保留源纹理。有关我们网络架构的更多详细信息,请参阅补充资料。
我们的编辑网络使用重建损失 L c \mathcal{L}_{c} Lc 和样式损失 L s \mathcal{L}_{s} Ls 进行训练。重建损失用于减少最终预测 I ^ \mathbf{\hat{I}} I^ 与其地面真值目标之间的误差。其结构设计与翘曲损失 L w \mathcal{L}_{w} Lw 相似。
L c = ∑ i ∥ ϕ i ( I t ) − ϕ i ( I ^ ) ∥ 1 \mathcal{L}_{c}=\sum_{i}\left\|\phi_{i}\left(\mathbf{I}_{t}\right)-\phi_{i}(\hat{\mathbf{I}})\right\|_{1} Lc=i∑∥∥∥ϕi(It)−ϕi(I^)∥∥∥1
类似地,对 I t \mathbf{I_t} It 和 I ^ \mathbf{\hat{I}} I^ 应用金字塔下采样来计算多尺度图像上的损失。样式损失 L s \mathcal{L}_{s} Ls 计算VGG-19激活特征之间的统计误差,如下所示:
L s = ∑ j ∥ G j ϕ ( I t ) − G j ϕ ( I ^ ) ∥ 1 \mathcal{L}_{s}=\sum_{j}\left\|G_{j}^{\phi}\left(\mathbf{I}_{t}\right)-G_{j}^{\phi}(\hat{\mathbf{I}})\right\|_{1} Ls=j∑∥∥∥Gjϕ(It)−Gjϕ(I^)∥∥∥1
其中 G j ϕ G_{j}^{\phi} Gjϕ 是由激活映射 ϕ j \phi_{j} ϕj 构造的Gram矩阵。所提出模型的最终损失是上述损失的总和。
L = λ w L w + λ c L c + λ s L s \mathcal{L}=\lambda_{w} \mathcal{L}_{w}+\lambda_{c} \mathcal{L}_{c}+\lambda_{s} \mathcal{L}_{s} L=λwLw+λcLc+λsLs
在实验中,我们设置 λ w = 2.5 , λ c = 4 \lambda_{w}=2.5, \lambda_{c}=4 λw=2.5,λc=4, λ s = \lambda_{s}= λs= 1000 。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CX0gDj32-1636787658428)(resources/bd72b8d308ef4f039ddd9aef3119d37a.png)]](https://i-blog.csdnimg.cn/blog_migrate/bef133d08a76ce65d5627bdbadbb0df5.png)
图3。音频驱动重演模型概述。先前生成的运动
p
i
−
k
:
i
−
1
\mathbf{p}_{i-k: i-1}
pi−k:i−1 和音频
a
i
−
k
:
i
+
τ
\mathbf{a}_{i-k: i+\tau}
ai−k:i+τ 用作生成当前运动
p
i
\mathbf{p}_{i}
pi 的条件信息。我们的归一化流
f
θ
f_{\theta}
fθ 用于映射潜变量
n
i
∈
N
\mathbf{n}_{i} \in \mathcal{N}
ni∈N 到运动描述符
p
i
∈
P
\mathbf{p}_{i} \in \mathcal{P}
pi∈P。
3.3 音频驱动重演的扩展
在本小节中,我们进一步扩展了PIRenderer,以处理音频驱动的面部重演任务,该任务通过驱动音频和源图像生成具有令人信服的表情和姿势的视频。这项任务需要一个人对声音和面部动作之间的关系进行建模。然而,将音频信号直接映射到照片真实感图像或其他低级运动描述符(例如边缘、地标)是一项挑战。与运动无关的因素(如身份和照明)将干扰模型。因此,采用语义上有意义的参数化(如3DMMs)作为中间结果可以显著简化任务。因此,我们进一步改进了我们的模型,增加了一个映射函数 f θ f_{\theta} fθ ,从音频中产生连续的3DMM系数。
设计 f θ f_{\theta} fθ 的一个基本挑战是处理各种可能的输出。训练它生成确定性运动将限制网络生成影响,因为它被限制预测所有可能结果的平均运动。因此,将 f θ f_{\theta} fθ 概括为一个随机模型,可以从单个音频流生成各种运动,有助于减少这个问题。标准化流程[13,29,24]用于设计该模型。规范化流的核心思想是训练一个可逆可微的非线性映射函数,将样本从简单分布映射到更复杂的分布。在条件设置中,可以训练模型映射顺序运动条件对 ( p , c ) ≡ ( p 1 : t , c 1 : t ) (\mathbf{p}, \mathbf{c}) \equiv\left(\mathbf{p}_{1: t}, \mathbf{c}_{1: t}\right) (p,c)≡(p1:t,c1:t) 用 n \mathbf{n} n 表示潜变量:
n = f θ − 1 ( p , c ) \mathbf{n}=f_{\theta}^{-1}(\mathbf{p}, \mathbf{c}) n=fθ−1(p,c)
通过假设一个简单的分布 p n ( n ) p_{\mathbf{n}}(\mathbf{n}) pn(n) (比如一个高斯分布 N ) \mathcal{N}) N),条件分布 p p ∣ c ( p ∣ c , θ ) p_{\mathbf{p} \mid \mathbf{c}}(\mathbf{p} \mid \mathbf{c}, \boldsymbol{\theta}) pp∣c(p∣c,θ)是由 p = f θ ( n , c ) \mathbf{p}=f_{\theta}(\mathbf{n}, \mathbf{c}) p=fθ(n,c) 样本映射得到 n ∼ p ( n ) \mathbf{n} \sim p(\mathbf{n}) n∼p(n)。
具体地说,我们以重复的方式生成连续的运动。图3示出了在时刻 i i i 生成运动 p i p_i pi 的细节。先前生成的k帧运动 P i − k : i − 1 \mathbf{P}_{i-k: i-1} Pi−k:i−1 以及音频 a i − k : i + τ \mathbf{a}_{i-k: i+\tau} ai−k:i+τ 用作条件信息 c i \mathbf{c_i} ci。同时,为了提取时间相关性,类似于[15,2],我们将归一化流层中的神经网络设计为LSTM[17]模块。隐藏状态在每次迭代时更新,以生成当前运动。我们使用一个负对数似然损失来训练这个网络。有关架构和培训方法的更多详细信息,请参阅我们的补充资料。在推理阶段,可以使用 p = f θ ( n , c ) \mathbf{p}=f_{\theta}(\mathbf{n}, \mathbf{c}) p=fθ(n,c) 生成各种连续运动。然后,可以使用建议的PIRenderer将这些运动转换为逼真的视频。
4. 实验
4.1 实施细节
数据集。我们使用VoxCeleb数据集[25]来训练我们的模型,该数据集包含从YouTube视频中提取的22496个会说话的头部视频。我们按照文献[31]中描述的预处理方法从原始视频中裁剪人脸。裁剪的视频包含自然运动,其中面在固定边界框内自由移动。然后将视频大小调整为256×256,以便进行培训和测试。从视频中提取相应的音频,用于音频驱动的重演任务。总共获得17913个训练视频和514个测试视频,长度从64帧到1024帧不等。
评价指标。学习感知图像面片模拟[50](LPIPS)用于估计重建误差。它计算生成图像和参考图像之间的感知距离。同时,合成结果的真实性通过Fŕechet Inception Distance[16](FID)进行测量,该距离计算假图像和真实图像分布之间的Wasserstein-2距离。通过平均表达距离(AED)和平均姿势距离(APD)估计运动精度,分别计算生成的图像和目标之间的平均3DMM表达和姿势距离。Yu等人[12]的训练模型用于提取3D人脸系数。此外,仅进行显著差异(JND)测试来评估主观质量。志愿者被要求从真假样本的数据对中选择更真实的一个。
训练细节。我们分阶段训练我们的模型。映射网络和翘曲网络首先经过200k次迭代的预训练。然后,我们以端到端的方式为另一个200k迭代训练整个模型。我们采用ADAM优化器,初始学习率为10−4.学习率降低到2×10−5在300k迭代后。所有实验的批次大小都设置为20。

图4。定性比较的结果是直观的肖像图像编辑任务。StyleGAN生成的图像用作源图像。左侧部分显示了StyleRig的结果[36]。右侧部分显示了我们模型的结果。我们用红色箭头标记StyleRig的意外修改和相应的正确结果。
4.2 直观的肖像图像编辑
在本小节中,我们将评估我们的模型在直观图像编辑任务中的性能。尽管已经提出了许多用于肖像图像语义编辑的方法,但很少有方法能够实现完全分离的直观运动修改。在本实验中,我们将提出的模型与最先进的StyleRig方法进行比较[36]。StyleRig通过3DMM控制Style-GAN[22]实现语义编辑。映射函数被训练成根据3DMM系数描述的目标运动变换StyleGAN的潜在变量。
编辑StyleGAN生成的图像。由于StyleRig需要StyleGAN潜在变量来执行修改,我们首先与StyleGAN生成的图像进行比较。使用StyleGAN对总共500个潜在变量进行随机采样,生成测试图像。通过对FFHQ数据集的运动分布进行采样获得目标运动[22]。与[11]类似,一些VAE根据从FFHQ真实图像中提取的运动进行训练。我们训练这些网络将3DMM系数映射到高斯分布,然后重构输入。经过训练后,VAE编码器被丢弃,解码器通过高斯样本描述运动分布。我们随机抽样100个目标的运动,其中包含各种表达式和旋转(我们不在这里编辑平移,因为StyleRig不支持这种编辑),这导致每个模型都有50k的编辑图像。评估结果显示在选项卡中。1.可以看出,通过使用StyleGAN作为最终生成器,StyleRig能够生成更真实的图像,从而降低FID分数。然而,较高的AED和APD分数表明它可能无法忠实地重建目标运动。与StyleRig不同,我们的模型可以生成运动更精确的图像。图4提供了定量比较。可以看出,StyleRig生成具有真实细节的压缩结果。然而,它倾向于使用保守策略生成图像:为了获得更好的图像质量,远离配送中心的运动会被削弱或忽略。同时,一些与运动无关的因素(如玻璃、布料)在修改过程中发生了变化。虽然我们的模型没有使用FFHQ进行训练,但在使用该数据集进行测试时仍然可以获得令人印象深刻的结果。我们不仅可以生成正确的全局姿势,还可以生成生动的微表情(如撅嘴和扬眉)的真实图像。此外,不相关的源信息得到了很好的维护。

图6。直观编辑真实世界的肖像图像。一些人工制品用红色箭头标记。
编辑真实世界的图像。编辑真实世界的即时消息是一项更有意义的任务。但是,StyleRig不能直接应用于此任务,因为它在StyleGAN特性级别转换肖像图像。幸运的是,像Image2StyleGAN[1]这样的技术可以将真实世界的图像嵌入到StyleGAN的潜在空间中,这可以用来帮助进行这样的编辑。编辑的结果如图6所示。由于Image2StyleGAN生成的优化嵌入可能不符合原始潜在分布,因此StyleRig的结果通常不可信,当源中显示复杂细节时,这一点更为明显。我们的模型可以直接应用于编辑真实世界的图像。同时,我们可以获得具有较少伪影和真实源纹理的图像。
4.3 有声头部运动模拟
在本小节中,我们将评估模型在运动模拟任务中的性能。我们将我们的模型与最先进的方法进行比较,包括:X2Face[45]、双层[48]、GFLA[27]和FOMM[31]。如果可行,这些方法的发布权重将用于评估。绝对运动用于所有方法。由于双层不预测背景,我们在进行定量分析时减去背景。
本实验中执行了两项任务:(1)相同的身份重建任务,其中源图像和驱动图像是同一个人的;(2)交叉身份运动模拟任务,其中通过模仿另一个人的运动生成不存在的视频。评估结果汇总在选项卡中。2.可以看出,FOMM和GFLA在相同的身份重建任务中取得了令人印象深刻的结果。但是,在跨身份视频的驱动下,性能会降低。一种可能的解释是,这些方法使用具有空间信息的运动描述符(如稀疏关键点[31]和面部地标[27]),这有利于重建任务。然而,特定对象的运动描述符可能会降低交叉身份再现任务的性能。我们的模型使用一个完全分离的运动描述符,这有助于在交叉身份再现任务中获得更好的结果。除了客观指标,我们在Amazon Mechanical Turk(MTurk)上进行了一次非常显著的差异测试。志愿者被要求从地面真实图像和生成的图像对中选择更真实的图像。我们随机选择200张图片作为每个任务的测试集。不同的志愿者对每一对进行了5次比较。愚弄率显示在选项卡中。2.可以看出,我们的模型在两项任务中都取得了最好的成绩,这意味着我们的模型可以产生更现实的结果。

图5。与最新方法的定性比较。上两行是同一身份重建任务的结果,下两行是交叉身份运动模拟任务的结果。
定性比较如图5所示。可以看出,X2Face的结果受到扭曲伪影的影响,因为它直接输出扭曲图像。双层生成具有过度平滑细节的图像,这降低了图像的真实感。GFLA和FOMM可以生成照片逼真的结果。然而,这些方法对驾驶视频中的遮挡非常敏感。同时,当源面形状与tar-get的形状非常不同时,源身份无法很好地保持。所提出的模型在保持源身份的同时,生成更真实的结果以及精确的运动。

图7。音频驱动面部再现任务的定性结果。我们提供DAVS[51]的结果作为比较。我们的模型能够为音频流生成各种生动的运动,并将运动转换为逼真的视频。
4.4 音频驱动的面部再现
在本小节中,我们展示了我们的模型可以通过从音频中提取令人信服的运动来生成连贯视频。首先由 f θ f_\theta fθ 生成具有各种姿势和表达式的连续运动。然后我们用我们的PIRenderer将这些运动转化为任意的个体。质量结果见图7。我们提供了最先进的方法DAVS[51]的结果,作为与我们模型的比较。显然,DAVS可以从音频中提取有意义的唇音。但是,它不能生成与音频弱相关的运动,如头部姿势和眼球运动。因此,这种能力降低了所制作视频的真实性。同时,DAVS通过一个无法模拟可能运动的巨大变化的确定性网络来完成这项任务。通过使用语义系数作为中间结果,我们可以从单个音频流中生成各种运动,并将它们转换为真实视频。可以看出,我们的模型不仅提取准确的嘴唇运动,而且还生成逼真的微表情,如撅嘴、眨眼。
5. 结论
我们提出了PIRenderer,一种有效的肖像图像神经渲染器,能够通过具有重要意义的参数来控制人脸。结合3DMMs的先验知识,我们的模型可以根据用户指定的系数修改面部表情、头部姿势和翻译,从而对真实世界的肖像图像进行直观编辑。同时,它还可以执行运动模拟任务。在不可知主体运动描述符的指导下,该模型可以生成具有良好源身份的连贯视频。我们相信,通过灵活的图形控制生成性神经网络可以实现许多令人兴奋的应用。音频驱动的面部重现任务的扩展提供了一个示例,并展示了这种组合的潜力。
附录
A. PIRenderer补充结果
在本节中,我们将提供所提出模型的其他结果。为了实现更直观的比较,我们将在补充视频中显示结果。在本视频中,提供了以下材料:
- 直观的人像图像编辑任务的结果。尽管有许多商业软件可用于肖像图像编辑,但不支持复杂的高级修改(例如修改头部姿势或表情),也不需要专业技能。结果表明,该模型能够实现交互式真实人脸图像编辑,大大降低了图像编辑的难度,帮助用户获得满意的图像。
- 运动模拟任务的结果。在相同的身份重建任务中,我们证明了我们的模型能够生成具有真实细节的连贯视频。同时,与GFLA和FOMM的结果相比,我们的模型对驾驶视频中的遮挡具有更强的鲁棒性。在交叉身份运动模拟任务中,我们证明了所提出的模型能够在保持源身份的同时生成真实的结果。
- 音频驱动的面部重现任务的结果。提供生成的视频以及输入音频。可以看出,我们的模型可以为给定的音频生成准确的口腔运动和真实的其他运动(眼睛、头部姿势等)。同时,我们可以仅从单个输入音频生成各种运动,并将这些运动转换为连贯的视频。
- 消融研究的结果。我们提供了第节中描述的消融研究结果。B使用连续帧窗口的系数作为中心帧的运动描述符可以帮助所提出的模型获得一致的结果
- 面部插值任务的结果。面部插值任务的结果如第节所述。C.据报告。可以看出,我们的模型学习了线性潜在空间Z,从而能够以平滑变化的运动插值图像。
B. 目标运动描述符的分析
在本文中,我们使用现成的3D人脸重建模型提取3DMM系数[12]。虽然这种方法产生相对准确的结果,但误差和噪声是不可避免的。在我们的主要论文中,我们提到估计误差会导致提取的运动与目标图像的真实运动不匹配,从而导致性能下降。同时,未能对视频的时间相关性进行建模将导致视频的不连贯。为了缓解这些问题,我们建议使用连续帧窗口的系数作为中心帧的运动描述符。在本节中,我们将证明此选择的有效性。
通过使用单个输入帧的3DMM系数作为目标运动描述符来训练烧蚀模型。同一身份重建任务的评估结果显示在选项卡中。B.3。可以看出,我们的PIRenderer可以生成具有更精确目标运动的图像。这表明我们的网络根据连续帧的系数来建模时间相关性,从而减少了误差。同时,在我们的补充视频中提供了主观比较。可以看出,烧蚀模型无法生成相干视频,这降低了结果的真实性。我们的PIRenderer可以产生精确运动的连贯结果。
C. 潜空间 Z \mathcal{Z} Z 的插值
在论文中,我们使用映射网络 f m : P → Z f_{m}: \mathcal{P} \rightarrow \mathcal{Z} fm:P→Z将运动描述符 p \mathbf{p} p 映射到潜在变量 z \mathbf{z} z。在本节中,我们展示了我们的模型可以学习支持面部运动插值任务的线性潜在空间 Z \mathcal{Z} Z 。插值后的图像由以下公式计算的潜在向量 z ′ \mathbf{z}^{\prime} z′ 生成。
z ′ = α f m ( p 1 ) + ( 1 − α ) f m ( p 2 ) \mathbf{z}^{\prime}=\alpha f_{m}\left(\mathbf{p}_{1}\right)+(1-\alpha) f_{m}\left(\mathbf{p}_{2}\right) z′=αfm(p1)+(1−α)fm(p2)

图C.8。潜在空间Z的插值结果。我们的模型可以生成具有平滑变化运动的图像。

图C.9。潜在空间
Z
\mathcal{Z}
Z 的插值结果。前四行显示了使用相同表达式和不同姿势插值运动生成的结果。底部的四行显示了使用相同姿势和不同表达式插值运动生成的结果。
其中 p 1 \mathbf{p}_{1} p1 和 p 2 \mathbf{p}_{2} p2 是两种不同的运动, f m f_m fm 是我们的映射函数。我们首先用真实世界的运动实现插值任务。生成的结果如图C.8所示。可以看出,我们的模型可以生成平滑变化的运动。随着 α \alpha α 的增加,表达式和姿势都从运动 p 1 \mathbf{p}_{1} p1 线性变换为运动 p 2 \mathbf{p}_{2} p2 。然后,我们证明了插值也可以使用特定的运动属性来执行。图C.9提供了生成的结果。给定具有相同表达式但不同姿势的运动 p 1 \mathbf{p}_{1} p1 和 p 2 \mathbf{p}_{2} p2 ,插值潜在向量 Z ′ \mathbf{Z}^{\prime} Z′ 控制生成具有相同表达式且姿势平滑变化的图像。同时,给定具有相同姿势但不同表情的运动 p 1 \mathbf{p}_{1} p1 和 p 2 \mathbf{p}_{2} p2,只有面部表情在插值结果中发生变化。面部运动插值任务可以实现许多应用,例如基于示例的肖像表情操作。

图D.11。PIRenderer的体系架构。

图D.10。我们网络中使用的组件。ADAIN操作在(a)ConvDown、(b)ResBlock和(c)ResBlockUp的每个卷积层之后使用。
D 实施细节
D.1 PIRenderer的实现细节
模型架构。我们的PIRenderer的架构如图D.11所示。映射网络负责转换目标运动 p ∈ P \mathbf{p} \in \mathcal{P} p∈P 转化为潜向量 z ∈ Z \mathbf{z} \in \mathcal{Z} z∈Z 。如本文所述,为了缓解系数估计误差带来的问题,我们使用 k k k 个连续帧的窗口的系数作为中心帧的运动描述符。我们为所有实验设置 k = 27 k=27 k=27。同时,三维人脸重建模型通常采用人脸对齐作为预处理方法来裁剪输入图像,使输入的人脸具有相似的大小和位置,以提高其性能。因此,这些方法不提供绝对平移参数 t t t,而只估计相对平移 t ′ \mathbf{t}^{\prime} t′。为了描述绝对面部位置,我们使用裁剪参数 t c \mathbf{t}_c tc 和相对平移 t ′ \mathbf{t}^{\prime} t′ 作为我们的平移参数。映射网络的体系结构如图D.11所示。我们使用一维卷积层来处理输入运动。在该网络中,Leaky ReLU用作激活函数。翘曲和编辑网络的架构如图D.11所示。自动编码器结构用于设计这些网络。跳过连接用于跳跃高分辨率功能。我们使用图D.10所示的架构作为基本组件。在(a)ConvDown、(b)ResBlock和(c)的每个卷积层之后使用ADAIN操作注入潜在向量 z \mathbf{z} z 。层归一化用作其他卷积层的激活归一化方法。在我们的模型中,我们使用Leaky ReLU作为非线性函数。
训练和推理。我们分阶段训练我们的模型。首先对映射网络和扭曲网络进行200k次迭代的预训练。然后,我们以端到端的方式为另一个200k迭代训练整个模型。我们采用ADAM优化器,初始学习率为 1 0 − 4 10^{−4} 10−4。学习率在300k迭代后降低至 2 × 1 0 − 5 2×10^{−5} 2×10−5。所有实验的批次大小都设置为20。我们设置 λ w = 2.5 λ_w=2.5 λw=2.5, λ c = 4 λ_c=4 λc=4, λ s = 1000 λ_s=1000 λs=1000。在推理阶段,我们使用 k = 27 k=27 k=27 个连续帧的系数作为再动作任务的运动描述符。在直观图像编辑任务中,我们将目标运动 k = 27 k=27 k=27 作为运动描述符重复。
D.2 f θ f_\theta fθ的实现细节
我们通过训练一个额外的映射函数 f θ f_\theta fθ 来扩展我们的PIRenderer,以处理音频驱动的面部再现任务。映射函数 f θ f_\theta fθ 负责从音频中生成连续的3DMM系数。正如本文所讨论的,标准化流程用于设计 f θ f_\theta fθ 。规范化流的核心思想是训练一个可逆可微的非线性映射函数,将样本从简单的已知分布(如高斯分布)映射到更复杂的分布。在我们的条件设置中,函数被训练为将运动条件对 ( p , c ) (\mathbf{p}, \mathbf{c}) (p,c) 映射到潜在变量 n \mathbf{n} n 通过 n = f θ − 1 ( p , c ) \mathbf{n}=f_{\theta}^{-1}(\mathbf{p}, \mathbf{c}) n=fθ−1(p,c) 。函数fθ由一系列可逆变换组成: f θ = f 1 ∘ f 2 ∘ ⋯ ∘ f K f_{\theta}=f_{1} \circ f_{2} \circ \cdots \circ f_{K} fθ=f1∘f2∘⋯∘fK ,这样 p \mathbf{p} p 和 n \mathbf{n} n 之间的关系可以写成:
n ⟷ f 1 ( ∗ , c ) h 1 ⟷ f 2 ( ∗ , c ) h 2 ⋯ ⟷ f K ( ∗ , c ) p \mathbf{n} \stackrel{f_{1}(*, \mathbf{c})}{\longleftrightarrow} \mathbf{h}_{1} \stackrel{f_{2}(*, \mathbf{c})}{\longleftrightarrow} \mathbf{h}_{2} \cdots \stackrel{f_{K}(*, \mathbf{c})}{\longleftrightarrow} \mathbf{p} n⟷f1(∗,c)h1⟷f2(∗,c)h2⋯⟷fK(∗,c)p
规范化流的关键方面是概率密度函数 p p ∣ c p_{\mathbf{p} \mid \mathbf{c}} pp∣c 可以显式计算为:
log p p ∣ c ( p ∣ c , θ ) = log p n ( f θ − 1 ( p , c ) ) + log ∣ det ∂ f θ − 1 ∂ p ( p , c ) ∣ = log p n ( f θ − 1 ( p , c ) ) + ∑ j = 1 K log ∣ det ∂ f j − 1 ∂ h j ( h j , c ) ∣ \begin{aligned} \log p_{\mathbf{p} \mid \mathbf{c}}(\mathbf{p} \mid \mathbf{c}, \theta) &=\log p_{\mathbf{n}}\left(f_{\theta}^{-1}(\mathbf{p}, \mathbf{c})\right)+\log \left|\operatorname{det} \frac{\partial f_{\theta}^{-1}}{\partial \mathbf{p}}(\mathbf{p}, \mathbf{c})\right| \\ &=\log p_{\mathbf{n}}\left(f_{\theta}^{-1}(\mathbf{p}, \mathbf{c})\right)+\sum_{j=1}^{K} \log \left|\operatorname{det} \frac{\partial f_{j}^{-1}}{\partial \mathbf{h}_{j}}\left(\mathbf{h}_{j}, \mathbf{c}\right)\right| \end{aligned} logpp∣c(p∣c,θ)=logpn(fθ−1(p,c))+log∣∣∣∣det∂p∂fθ−1(p,c)∣∣∣∣=logpn(fθ−1(p,c))+j=1∑Klog∣∣∣∣∣det∂hj∂fj−1(hj,c)∣∣∣∣∣
这里我们简单定义 h K ≡ p \mathbf{h}_{K} \equiv \mathbf{p} hK≡p 。 我们使用与GLow[24]类似的架构设计 f n f_{n} fn。 每个变换包括三个子步骤:Actnorm函数;线性变换;以及仿射耦合层: 设 x x x 表示每层的输入, y \mathbf{y} y 表示输出。 x \mathbf{x} x 和 y \mathbf{y} y 都是 [ c × t ] [c \times t] [c×t] ,通道数为 c c c ,时间维度为 $t $的张量。 Actnorm是激活的仿射变换 对每个通道 y t = s ⊙ x t + b \mathbf{y}_{t}=\mathbf{s} \odot \mathbf{x}_{t}+\mathbf{b} yt=s⊙xt+b。线性变换则是将输入张量转换为可训练的参数 W ∈ R C × C \mathbf{W} \in \mathbb{R}^{C \times C} W∈RC×C 通过 y t = W x t \mathbf{y}_{t}=\mathbf{W} \mathbf{x}_{t} yt=Wxt。仿射变换层首先对输入张量进行拆分 ( x a , x b ) = Split ( x ) \left(\mathbf{x}_{a}, \mathbf{x}_{b}\right)=\operatorname{Split}(\mathbf{x}) (xa,xb)=Split(x)。 然后使用神经网络预测仿射参数 ( log s , t ) = NN ( (\log \mathbf{s}, \mathbf{t})=\operatorname{NN}\left(\right. (logs,t)=NN( concat ( x b , c ) ) \left.\left(\mathbf{x}_{b}, \mathbf{c}\right)\right) (xb,c))。最后通过 y = concat ( s ⊙ x a + t , x b ) \mathbf{y}=\operatorname{concat}\left(\mathbf{s} \odot \mathbf{x}_{a}+\mathbf{t}, \mathbf{x}_{b}\right) y=concat(s⊙xa+t,xb) 获取输出。
我们的任务需要生成顺序运动描述符 p \mathbf{p} p。因此,建模时间相关性是这项任务的关键挑战。为了处理这个问题,我们以循环的方式生成运动。先前生成的k帧运动 p i − k : i − 1 \mathbf{p}_{i-k: i-1} pi−k:i−1 用作当前生成的条件信息的一部分。同时,设计了神经网络(∗) 在仿射耦合层中作为LSTM模块来进一步建模时间相关性。我们没有使用单个 f θ f_\theta fθ 生成运动 p \mathbf{p} p ,而是设计了两个映射函数 f θ 1 f_{\theta_{1}} fθ1 和 f θ 2 f_{\theta_{2}} fθ2 来生成表达式 β ∈ R 64 \boldsymbol{\beta} \in \mathbb{R}^{64} β∈R64 和位置 R ∈ S O ( 3 ) , t ∈ R 3 \mathbf{R} \in S O(3), \boldsymbol{t} \in \mathbb{R}^{3} R∈SO(3),t∈R3 。对于表达式映射函数 f θ 1 f_{\theta_{1}} fθ1 ,条件信息 c i \mathbf{c}_{i} ci 由两部分组成:先前表达式 β i − k : i − 1 \boldsymbol{\beta}_{i-k: i-1} βi−k:i−1 和一个音频窗口 a i − k : i + τ \mathbf{a}_{i-k: i+\tau} ai−k:i+τ 。对于位置映射函数 f θ 1 f_{\theta_{1}} fθ1 ,除了先前生成的运动和输入音频外,我们还将第一帧的初始位置添加到条件信息中,以帮助模型建立长期关系。我们为 f θ 1 f_{\theta_{1}} fθ1 设计 K = 10 K=10 K=10,为 f θ 2 f_{\theta_{2}} fθ2 设计 K = 8 K=8 K=8。对于所有实验,我们设置 k = 5 k=5 k=5, τ = 6 \tau=6 τ=6。
在训练阶段,我们训练映射函数,从地面真实运动 p i \mathbf{p}_{i} pi 和相应的条件信息 c i \mathbf{c}_{i} ci 生成潜在向量 n i \mathbf{n}_{i} ni 。负对数似然损失用作训练损失。
L n l l = − log p n ( n i ) − ∑ j = 1 K log ∣ det ∂ f j − 1 ∂ h j ( h j , c i ) ∣ \mathcal{L}_{n l l}=-\log p_{n}\left(\mathbf{n}_{i}\right)-\sum_{j=1}^{K} \log \left|\operatorname{det} \frac{\partial f_{j}^{-1}}{\partial \mathbf{h}_{j}}\left(\mathbf{h}_{j}, \mathbf{c}_{i}\right)\right| Lnll=−logpn(ni)−j=1∑Klog∣∣∣∣∣det∂hj∂fj−1(hj,ci)∣∣∣∣∣
在推理阶段,我们随机抽取潜在向量 n ∼ p ( n ) \mathbf{n} \sim p(\mathbf{n}) n∼p(n) 并使用 p = f θ ( n , c ) \mathbf{p}=f_{\theta}(\mathbf{n}, \mathbf{c}) p=fθ(n,c) 生成连续运动。条件信息 c 0 \mathbf{c}_{0} c0 中的运动被初始化为源图像的运动。
参考文献
[1] Rameen Abdal, Yipeng Qin, and Peter Wonka. Im-age2stylegan: How to embed images into the stylegan latentspace? In Proceedings of the IEEE international conferenceon computer vision, pages 4432–4441, 2019.
[2] Simon Alexanderson, Gustav Eje Henter, Taras Kucherenko,and Jonas Beskow. Style-controllable speech-driven gesturesynthesis using normalising flows. Computer Graphics Fo-rum, 39(2):487–496, 2020.
[3] Aayush Bansal, Shugao Ma, Deva Ramanan, and YaserSheikh. Recycle-gan: Unsupervised video retargeting. InProceedings of the European conference on computer vision(ECCV), pages 119–135, 2018.
[4] Volker Blanz and Thomas Vetter. A morphable model forthe synthesis of 3d faces. In Proceedings of the 26th an-nual conference on Computer graphics and interactive tech-niques, pages 187–194, 1999.
[5] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv preprint arXiv:1809.11096, 2018.
[6] Egor Burkov, Igor Pasechnik, Artur Grigorev, and VictorLempitsky. Neural head reenactment with latent pose de-scriptors. In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, pages 13786–13795, 2020.
[7] Lele Chen, Ross K Maddox, Zhiyao Duan, and ChenliangXu. Hierarchical cross-modal talking face generation withdynamic pixel-wise loss. In Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, pages7832–7841, 2019.
[8] Zhuo Chen, Chaoyue Wang, Bo Yuan, and Dacheng Tao.Puppeteergan: Arbitrary portrait animation with semantic-aware appearance transformation. In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition, pages 13518–13527, 2020.
[9] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, and Jaegul Choo. Stargan: Unified genera-tive adversarial networks for multi-domain image-to-imagetranslation. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 8789–8797,2018.
[10] Joon Son Chung, Amir Jamaludin, and Andrew Zisserman.You said that? arXiv preprint arXiv:1705.02966, 2017.
[11] Yu Deng, Jiaolong Yang, Dong Chen, Fang Wen, and XinTong. Disentangled and controllable face image genera-tion via 3d imitative-contrastive learning. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 5154–5163, 2020.
[12] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, YundeJia, and Xin Tong. Accurate 3d face reconstruction withweakly-supervised learning: From single image to image set.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition Workshops, pages 0–0, 2019.
[13] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice:Non-linear independent components estimation. arXivpreprint arXiv:1410.8516, 2014.
[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. In Advancesin neural information processing systems, pages 2672–2680,2014.
[15] Gustav Eje Henter, Simon Alexanderson, and Jonas Beskow.Moglow: Probabilistic and controllable motion synthesisusing normalising flows. ACM Transactions on Graphics(TOG), 39(6):1–14, 2020.
[16] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained by atwo time-scale update rule converge to a local nash equilib-rium. In Advances in neural information processing systems,pages 6626–6637, 2017.
[17] Sepp Hochreiter and J ̈urgen Schmidhuber. Long short-termmemory. Neural computation, 9(8):1735–1780, 1997.
[18] Xun Huang and Serge Belongie. Arbitrary style transfer inreal-time with adaptive instance normalization. In Proceed-ings of the IEEE International Conference on Computer Vi-sion, pages 1501–1510, 2017.
[19] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. Image-to-image translation with conditional adver-sarial networks. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 1125–1134,2017.
[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptuallosses for real-time style transfer and super-resolution. InEuropean conference on computer vision, pages 694–711.Springer, 2016.
[21] Rico Jonschkowski, Austin Stone, Jonathan T Barron, ArielGordon, Kurt Konolige, and Anelia Angelova. Whatmatters in unsupervised optical flow. arXiv preprintarXiv:2006.04902, 2020.
[22] Tero Karras, Samuli Laine, and Timo Aila. A style-basedgenerator architecture for generative adversarial networks. InProceedings of the IEEE conference on computer vision andpattern recognition, pages 4401–4410, 2019.
[23] Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, WeipengXu, Justus Thies, Matthias Niessner, Patrick P ́erez, Chris-tian Richardt, Michael Zollh ̈ofer, and Christian Theobalt.Deep video portraits. ACM Transactions on Graphics (TOG),37(4):1–14, 2018.
[24] Durk P Kingma and Prafulla Dhariwal. Glow: Generativeflow with invertible 1x1 convolutions. In Advances in neuralinformation processing systems, pages 10215–10224, 2018.
[25] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman.Voxceleb: a large-scale speaker identification dataset. arXivpreprint arXiv:1706.08612, 2017.
[26] Pascal Paysan, Reinhard Knothe, Brian Amberg, SamiRomdhani, and Thomas Vetter. A 3d face model for poseand illumination invariant face recognition. In 2009 SixthIEEE International Conference on Advanced Video and Sig-nal Based Surveillance, pages 296–301. Ieee, 2009.
[27] Yurui Ren, Ge Li, Shan Liu, and Thomas H Li. Deep spatialtransformation for pose-guided person image generation andanimation. IEEE Transactions on Image Processing, 2020.
[28] Yurui Ren, Xiaoming Yu, Junming Chen, Thomas H Li, andGe Li. Deep image spatial transformation for person imagegeneration. In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition, pages 7690–7699, 2020.
[29] Danilo Jimenez Rezende and Shakir Mohamed. Varia-tional inference with normalizing flows. arXiv preprintarXiv:1505.05770, 2015.
[30] Aliaksandr Siarohin, St ́ephane Lathuiliere, Sergey Tulyakov,Elisa Ricci, and Nicu Sebe. Animating arbitrary objects viadeep motion transfer. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pages 2377–2386, 2019.
[31] Aliaksandr Siarohin, St ́ephane Lathuiliere, Sergey Tulyakov,Elisa Ricci, and Nicu Sebe. First order motion model for im-age animation. In Advances in Neural Information Process-ing Systems, pages 7137–7147, 2019.
[32] Yang Song, Jingwen Zhu, Dawei Li, Xiaolong Wang, andHairong Qi. Talking face generation by conditional recur-rent adversarial network. arXiv preprint arXiv:1804.04786,2018.
[33] Supasorn Suwajanakorn, Steven M Seitz, and IraKemelmacher-Shlizerman. Synthesizing obama: learn-ing lip sync from audio. ACM Transactions on Graphics(TOG), 36(4):1–13, 2017.
[34] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. arXiv preprintarXiv:2003.12039, 2020.
[35] Ayush Tewari, Mohamed Elgharib, Florian Bernard, Hans-Peter Seidel, Patrick P ́erez, Michael Zollh ̈ofer, ChristianTheobalt, et al. Pie: Portrait image embedding for seman-tic control. arXiv preprint arXiv:2009.09485, 2020.
[36] Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, FlorianBernard, Hans-Peter Seidel, Patrick P ́erez, Michael Zoll-hofer, and Christian Theobalt. Stylerig: Rigging style-gan for 3d control over portrait images. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 6142–6151, 2020.
[37] Justus Thies, Mohamed Elgharib, Ayush Tewari, ChristianTheobalt, and Matthias Nießner. Neural voice puppetry:Audio-driven facial reenactment. In European Conferenceon Computer Vision, pages 716–731. Springer, 2020.
[38] Justus Thies, Michael Zollh ̈ofer, and Matthias Nießner. De-ferred neural rendering: Image synthesis using neural tex-tures. ACM Transactions on Graphics (TOG), 38(4):1–12,2019.
[39] Justus Thies, Michael Zollhofer, Marc Stamminger, Chris-tian Theobalt, and Matthias Nießner. Face2face: Real-timeface capture and reenactment of rgb videos. In Proceed-ings of the IEEE conference on computer vision and patternrecognition, pages 2387–2395, 2016.
[40] Konstantinos Vougioukas, Stavros Petridis, and Maja Pan-tic. End-to-end speech-driven facial animation with temporalgans. arXiv preprint arXiv:1805.09313, 2018.
[41] Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu,Bryan Catanzaro, and Jan Kautz. Few-shot video-to-videosynthesis. Advances in Neural Information Processing Sys-tems, 32:5013–5024, 2019.
[42] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu,Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-to-video synthesis. arXiv preprint arXiv:1808.06601, 2018.
[43] Ting-Chun Wang, Arun Mallya, and Ming-Yu Liu. One-shotfree-view neural talking-head synthesis for video conferenc-ing. arXiv preprint arXiv:2011.15126, 2020.
[44] Xin Wen, Miao Wang, Christian Richardt, Ze-Yin Chen,and Shi-Min Hu. Photorealistic audio-driven video portraits.IEEE Transactions on Visualization and Computer Graph-ics, 26(12):3457–3466, 2020.
[45] Olivia Wiles, A Sophia Koepke, and Andrew Zisserman.X2face: A network for controlling face generation usingimages, audio, and pose codes. In Proceedings of the Eu-ropean conference on computer vision (ECCV), pages 670–686, 2018.
[46] Wayne Wu, Yunxuan Zhang, Cheng Li, Chen Qian, and ChenChange Loy. Reenactgan: Learning to reenact faces viaboundary transfer. In Proceedings of the European confer-ence on computer vision (ECCV), pages 603–619, 2018.
[47] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-JinLiu. Audio-driven talking face video generation with naturalhead pose. arXiv preprint arXiv:2002.10137, 2020.
[48] Egor Zakharov, Aleksei Ivakhnenko, Aliaksandra Shysheya,and Victor Lempitsky. Fast bi-layer neural synthesis of one-shot realistic head avatars. In European Conference on Com-puter Vision, pages 524–540. Springer, 2020.
[49] Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, andVictor Lempitsky. Few-shot adversarial learning of realis-tic neural talking head models. In Proceedings of the IEEEInternational Conference on Computer Vision, pages 9459–9468, 2019.
[50] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shecht-man, and Oliver Wang. The unreasonable effectiveness ofdeep features as a perceptual metric. In Proceedings of theIEEE conference on computer vision and pattern recogni-tion, pages 586–595, 2018.
[51] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and XiaogangWang. Talking face generation by adversarially disentan-gled audio-visual representation. In Proceedings of theAAAI Conference on Artificial Intelligence, volume 33, pages9299–9306, 2019.
610

被折叠的 条评论
为什么被折叠?



