3. Methods
3.1. Architecture and notation
数据集包含 M M M个video sequences,其中第 i i i个video记为 x i \textbf{x}_i xi,第 t t t帧记为 x i ( t ) \textbf{x}_i(t) xi(t)
对 x i ( t ) \textbf{x}_i(t) xi(t)提取landmark,将landmark连成线段,使用不同的颜色画在一幅白底图上,得到landmark image(如Figure 2左上角所示),记为 y i ( t ) \mathbf{y}_i(t) yi(t)
如Figure 2所示,总共有3个网络
- embedder E ( x i ( s ) , y i ( s ) ; ϕ ) E\left ( \mathbf{x}_i(s), \mathbf{y}_i(s); \phi \right ) E(xi(s),yi(s);ϕ),将video frame x i ( s ) \mathbf{x}_i(s) xi(s)和对应的 y i ( s ) \mathbf{y}_i(s) yi(s)映射为一个 N N N维向量 e ^ i ( s ) \hat{\mathbf{e}}_i(s) e^i(s),这个 e ^ i ( s ) \hat{\mathbf{e}}_i(s) e^i(s)应该包含了video-specific information (such as the person’s identity)
- generator G ( y i ( t ) , e ^ i ; ψ , P ) G\left ( \mathbf{y}_i(t), \hat{\mathbf{e}}_i; \psi, \mathbf{P} \right ) G(yi(t),e^i;ψ,P),利用landmark image y i ( t ) \mathbf{y}_i(t) yi(t)和video embedding e ^ i \hat{\mathbf{e}}_i e^i,生成一幅图像 x ^ i ( t ) \hat{\mathbf{x}}_i(t) x^i(t),生成器的训练目标是最大化 x ^ i ( t ) \hat{\mathbf{x}}_i(t) x^i(t)与其ground truth之间的similarity,生成器的参数分为两类,一是person-generic parameters ψ \psi ψ,二是person-specific parameters ψ ^ i \hat{\psi}_i ψ^i
- Discriminator
D
(
x
i
(
t
)
,
y
i
(
t
)
,
i
;
θ
,
W
,
w
0
,
b
)
D\left ( \mathbf{x}_i(t), \mathbf{y}_i(t), i; \theta, \mathbf{W}, \mathbf{w}_0, b \right )
D(xi(t),yi(t),i;θ,W,w0,b),可以进一步细分为ConvNet part
V
(
x
i
(
t
)
,
y
i
(
t
)
;
θ
)
V\left ( \mathbf{x}_i(t), \mathbf{y}_i(t); \theta \right )
V(xi(t),yi(t);θ)负责将input frame和landmark image映射为
N
N
N维向量,然后结合输入
i
i
i进一步映射为一个realism score
r
r
r
Question:无法理解为什么判别器的输入需要一个 i i i
3.2. Meta-learning stage
simulating episodes of K-shot learning (K = 8 in our experiments)
随机选取第 i i i个视频 x i \textbf{x}_i xi中的第 t t t帧 x i ( t ) \textbf{x}_i(t) xi(t),接着再从这个视频中额外抽取 K K K帧,也就是 K K K个index,记为 s 1 , s 2 , ⋯ , s K s_1, s_2, \cdots, s_K s1,s2,⋯,sK
首先按照公式(1)计算
e
^
i
\hat{\textbf{e}}_i
e^i
e
^
i
=
1
K
∑
k
=
1
K
E
(
x
i
(
s
k
)
,
y
i
(
s
k
)
;
ϕ
)
(
1
)
\hat{\textbf{e}}_i=\frac{1}{K}\sum_{k=1}^{K}E\left ( \textbf{x}_i(s_k), \textbf{y}_i(s_k); \phi \right ) \qquad(1)
e^i=K1k=1∑KE(xi(sk),yi(sk);ϕ)(1)
e
^
i
\hat{\textbf{e}}_i
e^i配合
y
i
(
t
)
\textbf{y}_i(t)
yi(t),送入生成器
G
G
G生成第
t
t
t帧图像
x
^
i
(
t
)
=
G
(
y
i
(
t
)
,
e
^
i
;
ψ
,
P
)
(
2
)
\hat{\textbf{x}}_i(t)=G\left ( \textbf{y}_i(t), \hat{\textbf{e}}_i; \psi, \mathbf{P} \right ) \qquad(2)
x^i(t)=G(yi(t),e^i;ψ,P)(2)
E
E
E和
G
G
G的参数通过最小化公式(3)得到
L
(
ϕ
,
ψ
,
P
,
θ
,
W
,
w
0
,
b
)
=
L
C
N
T
(
ϕ
,
ψ
,
P
)
+
L
A
D
V
(
ϕ
,
ψ
,
P
,
θ
,
W
,
w
0
,
b
)
+
L
M
C
H
(
ϕ
,
W
)
(
3
)
\begin{aligned} \mathcal{L}&\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )=\mathcal{L}_{CNT}\left ( \phi, \psi, \mathbf{P}\right )+ \\ &\mathcal{L}_{ADV}\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )+\mathcal{L}_{MCH}\left ( \phi, \mathbf{W} \right ) \qquad(3) \end{aligned}
L(ϕ,ψ,P,θ,W,w0,b)=LCNT(ϕ,ψ,P)+LADV(ϕ,ψ,P,θ,W,w0,b)+LMCH(ϕ,W)(3)
其中
L
C
N
T
\mathcal{L}_{CNT}
LCNT是ground truth image
x
i
(
t
)
\mathbf{x}_i(t)
xi(t)与the reconstruction
x
^
i
(
t
)
\hat{\textbf{x}}_i(t)
x^i(t)之间的perceptual similarity measure;
L
A
D
V
\mathcal{L}_{ADV}
LADV是adversarial loss;
3.3. Few-shot learning by fine-tuning
当meta-learning收敛后,需要对一个new person单独进行fine-tuning,这个new person只提供了少量图像,所以叫做few-shot learning
具体来说,我们有 T T T幅图像 x ( 1 ) , x ( 2 ) , ⋯ , x ( T ) \textbf{x}(1), \textbf{x}(2), \cdots, \textbf{x}(T) x(1),x(2),⋯,x(T),以及对应的landmark图像 y ( 1 ) , y ( 2 ) , ⋯ , y ( T ) \textbf{y}(1), \textbf{y}(2), \cdots, \textbf{y}(T) y(1),y(2),⋯,y(T),此处 T T T不需要与meta-learning中的 K K K相等
使用meta-learned embedder提取vector
e
^
N
E
W
=
1
T
∑
t
=
1
T
E
(
x
(
t
)
,
y
(
t
)
;
ϕ
)
(
7
)
\hat{\textbf{e}}_{NEW}=\frac{1}{T}\sum_{t=1}^{T}E\left ( \textbf{x}(t), \textbf{y}(t); \phi \right ) \qquad(7)
e^NEW=T1t=1∑TE(x(t),y(t);ϕ)(7)
然后可以对new person生成新的图像,但由于存在identity gap,生成图像的质量无法满足要求,因此需要fine-tuning
fine-tuning包含以下几个成分
- Generator中person-specific的参数 ψ ′ \psi' ψ′的初始化方式为
fine-tuning可以看作是在一段video上的简化版的meta-learning
4. Experiments
生成效果见原文,这是一篇ICCV oral,视频中展示的生成video具有比较高的fidelity
【总结】
本文解决的问题是few-shot条件下的talking head的生成问题,使用meta-learning着重解决不同阶段参数的初始化问题,网络结构上没有太多改进,采用的是最近流行的结构,最终能够实现基于lanmark驱动的人脸图像生成
本文不足是对于每一个new person,仍然需要进行fine-tuning,并且在最后的Conclusion也指出了landmark无法表达比较细微的特征(如gaze),使用别人的landmark存在一定偏差,或许需要进行landmark adaptation