Abstract
提出本论文主要解决的问题是: recovering 3D non-rigid shape models from image sequences \text{recovering 3D non-rigid shape models from image sequences} recovering 3D non-rigid shape models from image sequences,即从图像序列(比如视频)中恢复三维非刚性形状模型。论文提出了一种基于非刚性模型的新技术,其中每一帧的3D形状是一组 基形状(basis shape) 的线性组合。在该模型下,跟踪矩阵具有较高的秩,并可通过三步分解得到位姿、位形和形状。在基于视频序列构建说话者面部模型中准确率较高。
Introduction
该技术应用在谈话者视频中表现良好,可以构建出人脸(面部表情和嘴唇动作等)的模型。在Tomasi和Kanade的分解技术中,从图像序列中恢复出一个形状矩阵(shape matrix)。在正投影(orthographic projection) 下,2D的追踪矩阵秩为3,且可以通过奇异值分解(SVD) 分解为3D姿态和3D形状。但他们的技术不能用在非刚性的变形的物体上。
主要的方法都是基于
PCA
\text{PCA}
PCA ,如果物体变形的自由度为
K
K
K,则形状测量的协方差矩阵的秩为
K
K
K,且主要的变化可以通过
SVD
\text{SVD}
SVD 来恢复。
每一帧中的3D形状是
K
K
K个基础形状的线性组合。在当前模型下,通过使用
SVD
\text{SVD}
SVD,秩为
3
K
3K
3K 的2D追踪矩阵可以被分解为3D姿态、结构和3D基础形状。
Previous Work
主要介绍已有的相关技术的局限性,这些技术都不能在不进行任何初始化的情况下从单视图2D视频流估计非刚性3D形状模型。
Factorization Algorithm
key-frame basis set
\text{key-frame basis set}
key-frame basis set :
S
1
,
S
2
,
⋯
,
S
k
S_1,S_2,\cdots,S_k
S1,S2,⋯,Sk ,
S
i
S_i
Si 是一个描述
P
P
P 个点的
3
×
P
3\times P
3×P 的矩阵。
the linear combination of this basis set
\text{the linear combination of this basis set}
the linear combination of this basis set:
S
=
∑
i
=
1
K
l
i
⋅
S
i
S=\sum_{i=1}^{K}{l_i·S_i}
S=i=1∑Kli⋅Si
通过正投影,构造
S
S
S 的
P
P
P 个点被映射到
2
D
2D
2D 图像上的点
(
u
i
,
v
i
)
(u_i,v_i)
(ui,vi):
其中,
R
R
R 是摄像头旋转矩阵 ,
T
T
T 是摄像头平移,投影的规模记录在
l
1
,
⋯
,
l
K
l_1,\cdots,l_K
l1,⋯,lK 中。与Tomasi和Kanade相同的做法,通过减去所有2D点的平均值来消除
T
T
T ,之后就可以使得
S
S
S 位于中心的原点。
以矩阵乘积的形式重写线性组合:
把
N
N
N 帧中所有的2D点表示为:
可写成:
Basis Shape Factorization
W
W
W 矩阵的秩为
3
K
3K
3K ,可以被分解为
Q
Q
Q 和
B
B
B 。在只考虑前
3
K
3K
3K 奇异向量和奇异值(在
U,D,V
\text{U,D,V}
U,D,V 中),通过
SVD
\text{SVD}
SVD ,可以进行分解: