#今日论文推荐# 你没见过的《老友记》镜头,AI给补出来了|ECCV 2022
要知道,使用单个视频来重建3D场景的难度其实还很高,但是电视剧中往往是同一场景拍下了多个画面,这为AI学习提供了非常丰富的图像资料。
本文方法能够在整季剧集中自动运行,计算出各个镜头的摄像机位置信息、静态三维场景结构和人物身体信息,然后将他们整合计算成一个3D场景来。
具体来看,该方法主要分为处理场景信息人物信息两方面。
场景上,基于不同画面,该方法通过SfM(Structure-from-Motion)来估计出拍摄时摄像机的位置。
这种方法是指在只有单个摄像机的情况下,通过分析摄像机移动时拍到的场景来确定3D场景信息。
然后通过分析摄像机与人物之间的位置关系,以此确定出人物所在的区域,然后将两个不同角度的画面整合分析,进行三角定位,以此确定人物的真正位置。
之后,利用NeRF来重建出细致的3D场景信息。
神经渲染辐射场可以将场景的体积表示优化为向量函数,该函数由位置和视图方向组成的连续5D坐标定义。
也就是沿着相机射线采样5D坐标,以此合成图像。
论文题目:The One Where They Reconstructed 3D Humans and Environments in TV Shows
详细解读:https://www.aminer.cn/research_report/62f4ef8c7cb68b460f00c00fhttps://www.aminer.cn/research_report/62f4ef8c7cb68b460f00c00f
AMiner链接:https://www.aminer.cn/?f=cs