论文解读:2019-CVPR-Google-Learning the Depths of Moving People by Watching Frozen People

该论文从视频中重建了移动对象的景深图。即使拍摄相机和人物同时在运动,也能很好重建景深图。

和传统方法最大的改进在于,谷歌的新方法可以用深度学习,从数据中学习人体姿态和形状的先验知识,避开了直接的3D三角测量。

构建数据集:
选取了YouTube上关于#假人挑战#(Mannequin Challenge)话题的数据,在这种类型的视频中,被拍摄者需做出一个定格动作,且要表现与人体模型一样静止不动,并由摄影师透过移动镜头的技巧进行拍摄。
再利用多视角立体( Multi-View Stereo,MVS)算法,就可以获取到包含其中人物在内整个场景的(稀疏)深度图了。
 

构建稠密的景深图:
计算了视频中每一帧和其他帧之间(取2帧)的2D光流(2D optical flow),用来表示两帧之间的像素位移。

为了在测试时处理移动的人物,采用了人像分割网络( human-segmentation network)来掩盖初始深度图中的人类区域。整个网路的完整输入包括:
RGB图像
人物mask
来自视差的mask深度图(由光流的视差计算得到的初始深度图,其中掩盖了人物区域)

此外,通过学习人类姿态和人体形状的先验(MVS深度图),细化了景深图中各种细节(补全人物区域的深度,得到稠密的景深图)。
 

预测移动人物的深度:
但新的问题产生了,人体模特挑战视频里人物是静止的,想要处理移动镜头下的移动人物,如何解决?

一个可能的解决方案:从视频的每一帧来单独推断深度值,即仅将单个帧输入模型。这种方案所训练的模型的确优于现有的最佳单图像深度预测方法,但考虑多帧图像提供的信息,模型是否会进一步提升呢?

研究者引入了每两帧画面之间的 2D 光流图,即两帧图像间像素位移信息,来辅助深度预测。

相机位置是已知的(利用视觉惯性测距得到),故可以得到静态场景的初始深度值(通过移动相机,得到静态场景的深度)

但人物同时也在运动,所以在得到初始深度图时,人物会产生噪音,利用人体切割模型,将人物区域掩去,剩下的就是静态的场景深度信息。

故模型输入为 RGB 图像、人物掩蔽图,和利用 SfM(structure-from-motion) 对光流图计算出的掩蔽人物后的深度图。

最终模型:
根据运动视差(Motion Parallax)的原理,成功的训练出了一个深度学习的沙漏模型,有效地解决了移动镜头下移动人物的深度预测问题。

研究人员最终采用了沙漏模型(hourglass network)的一个变种作为模型结构

这个模型可以预测有移动人类场景的深度,细化其他地方的深度,实现移动人物的去除。由于人体有着大概一致的形状和物理维度,所以可以通过训练数据来先验地学习到这些信息。

这个模型也可以用于将单目镜头视频变成立体视频。

整个数据集约有 2000 个视频,涵盖各种真实场景下的各种造型各种姿势的人类。

光流视差计算的深度图只对场景中静态的部分有效,为了还能处理移动的人,增加了一个人物分割网络,把人从初始深度图中遮蔽掉。

网络的任务就是补上有人的区域的深度图,以及对整幅画面的深度图做一些完善。由于人体有较为固定的形状和尺寸,网络可以很容易地从训练数据中学到这些先验,并给出较为准确的深度估计。在训练完毕后,模型就可以处理摄像头和人物动作都任意变化的自然拍摄视频了。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值