从视频中重建了移动对象的景深图。即使拍摄相机和人物同时在运动,也能很好重建景深图。
和传统方法最大的改进在于,谷歌的新方法可以用深度学习,从数据中学习人体姿态和形状的先验知识,避开了直接的3D三角测量。
构建数据集:
选取了YouTube上关于#假人挑战#(Mannequin Challenge)话题的数据,在这种类型的视频中,被拍摄者需做出一个定格动作,且要表现与人体模型一样静止不动,并由摄影师透过移动镜头的技巧进行拍摄。
再利用多视角立体(Multi-View Stereo,MVS)算法,就可以获取到包含其中人物在内整个场景的(稀疏)深度图了。
构建稠密的景深图:
计算了视频中每一帧和其他帧之间(取2帧)的2D光流(2D optical flow),用来表示两帧之间的像素位移。
为了在测试时处理移动的人物,采用了人像分割网络( human-segmentation network)来掩盖初始深度图中的人类区域。整个网路的完整输入包括:(训练时用3个输入,测试时只用1个RGB图像输入)
RGB图像
人物mask
来自视差的mask深度图(由光流的视差计算得到的初始深度图,其中掩盖了人物区域)