Paper link:https://research.google/pubs/pub48573/
背景
The relightables 是谷歌在SIGGRAPH Asia 2019推出的一款人体容积视频捕捉的方法,专注于3D几何重建和高分辨率的贴图。 最终得到如照片真实的和高质量的可照明的全身演出采集。
创新点
- 设计了一款全新的1200万像素的主动深度传感器。
- 设计了一个混合基于机器学习的几何重建管线(pipeline),来处理高分辨率的多视角图片输入,最终输出一段体积视频。
- 融合了传统的Image-based Relighting方法,设计了一个类似Light stage的捕捉装置,区别于传统的3D捕捉过程中的光线条件恒定的特点,Relightable通过装置中的331个LED发光器在3D捕捉过程中创造交替转换的两种环境光照,以60Hz运行,采集拥有两张交替颜色梯度的光照图片,最终计算得出时间一致的反射比图(Reflectance Map),可用于任意后期渲染引擎,得到如照片一样真实的渲染效果。
硬件系统
上图是整个系统的硬件架构图,主要可以分为四大类:
- Cameras:整个系统一共包含了90个摄像头,32个IR和58个RGB,感光器全部使用Ximea MX124科学相机,基于索尼IMX253开发,拥有Global shutter,4112x3008(12.4MP)分辨率,帧率高达60fps,支持PCIe Gen 2x2接口数据传输等特性,FOV ~48°,IR镜头接受860nm的红外光。
- LED PCBs:包含了331个LED照明灯光,分布在球型light stage各个方向上,LED板子上自带FPGA,运行时,以180Hz交替发光。
- PCIe switch:连接镜头和捕捉主机,给镜头提供供电和同步信号。
- Capture PC:系统包含16个捕捉主机,每台主机包含了高读写速度的NVMe SSD用来满足实时录制原始相机信息。
主动双目结构光模组
模组包含了两个12.4MP IR镜头,单个RGB镜头,和一个结构光打光器。
结构光的pattern采用了编码结构光的pattern,比主流的散斑结构光更密集,最终提供更优质的深度图。传统结构光镜头,多镜头同时采集一个物体时,pattern重叠,会互相影响,导致不能正常解码出深度,但是谷歌的双目结构光,比较巧妙的解决了这个问题,pattern的使用是不过是为了在物体表面增加更多的匹配特征,最终解码还是依靠计算视差图,所以多镜头使用时,不需要担心互相干扰。
方法
首先,输入的多视角RGB图片和IR图片,双目解码得到深度图,深度网络分割网络的引入主要是为了分割背景和前景,并且给人体划分出面部和身体等区域。离群点去除后的点云被合并,做了一些提优的工作,最后使用Poisson做出Mesh。
Mesh重建的结果节点太多,所以需要对Mesh进行减面处理。此时Mesh在播放时会有很严重的表面抖动,因为帧与帧之间的Mesh是单独制作,顶点和UV的变化会比较大,所以这里引入了Mesh tracking的技术,也就是使用关键帧Mesh代替附件的临近帧,使用可变性的非刚体方法控制关键帧去替代临近帧,UV也统一使用了关键帧的UV。
通过Light stage的打光,我们得到两张UV图,一个是颜色渐变图,另一张是逆颜色渐变图,通过这两张图可以算出三种贴图,Albedo map,Gloss map和Normals map,这些都是最终放入渲染引擎提升最终渲染效果的重要信息。
结果
基础Mesh的面片数量越多,可以看到几何信息越多,模型越精细,但是如果都贴上Normal map并渲染,即使是最粗糙的mesh也可以获得更多的细节,和基本Mesh 100k面片没有太大区别。
在捕捉高速移动物体时,需要加入Texture alignment解决贴图不一致的问题。
最终与Microsoft 2015年多视角捕捉系统的对比。
局限性
- 需要极大的算力,10s录制内容(600 frame),需要计算集群处理8小时,在一台32核的单机上处理将需要1年以上的时间
- 关键帧Mesh转换会有不自然过度的情况
- 高频细节仍然没有完美捕捉和重建,如:头发
- 依然对透明,高反射和镜面物体无法重建,如:眼镜,手表,等
- 完美估计Normal map的前提是高质量精准的Optical flow计算,但是快速的直角拐弯动作会导致估计不准,另外,低信噪比区域(如:头发,深色表面)也会增加精准估计的难度
- 录制产生的数据是海量的,需要数据中心级的存储能力
- 实验室产品,不计成本,价格昂贵
Reference
[1] Collect Microsoft 2015 High-quality streamable Free-viewport video: http://hhoppe.com/fvv.pdf
[2] Motion2Fusion link: https://www.researchgate.net/publication/321236208_Motion2fusion_real-time_volumetric_performance_capture
[3] Microsoft UVAtlas tool link: https://github.com/microsoft/UVAtlas
[4] Cosine lobe based relighting from gradient illumination photographs: https://ict.usc.edu/pubs/Cosine%20Lobe%20Based%20Relighting%20from%20Gradient%20Illumination%20Photographs.pdf
[5] Alvaro Collet, Ming Chuang, Pat Sweeney, Don Gillett, Dennis Evseev, David Calabrese, Hugues Hoppe, Adam Kirk, and Steve Sullivan. 2015. High-quality Streamable Free-viewpoint Video. ACM TOG (2015).
[6] Mingsong Dou, Philip Davidson, Sean Ryan Fanello, Sameh Khamis, Adarsh Kowdle, Christoph Rhemann, Vladimir Tankovich, and Shahram Izadi. 2017. Motion2Fusion: Real-time Volumetric Performance Capture. SIGGRAPH Asia (2017).
[7] Mingsong Dou, Sameh Khamis, Yury Degtyarev, Philip Davidson, Sean Ryan Fanello, Adarsh Kowdle, Sergio Orts Escolano, Christoph Rhemann, David Kim, Jonathan Taylor, Pushmeet Kohli, Vladimir Tankovich, and Shahram Izadi. 2016. Fusion4D: Real-time Performance Capture of Challenging Scenes. SIGGRAPH (2016).
[8] Philipp Krähenbühl and Vladlen Koltun. 2011. Ecient Inference in Fully Connected CRFs with Gaussian Edge Potentials. In NIPS.
[9] Johannes Lutz Schönberger, Enliang Zheng, Marc Pollefeys, and Jan-Michael Frahm. 2016. Pixelwise View Selection for Unstructured Multi-View Stereo. In European Conference on Computer Vision (ECCV).
[10] Robert W Sumner, Johannes Schmid, and Mark Pauly. 2007. Embedded deformation for shape manipulation. ACM Transactions on Graphics (TOG) 26, 3 (2007), 80.
[11] Michael Zollhöfer, Matthias Nießner, Shahram Izadi, Christoph Rehmann, Christopher Zach, Matthew Fisher, Chenglei Wu, Andrew Fitzgibbon, Charles Loop, Christian Theobalt, and Marc Stamminger. 2014. Real-time Non-rigid Reconstruction using an RGB-D Camera. ACM TOG (2014).
[12] Jure Žbontar and Yann LeCun. 2016. Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches. Journal of Machine Learning Research 17, 65 (2016), 1–32. http://jmlr.org/papers/v17/15-535.html