对深度信息的思考
图片的深度信息非常重要,它可以用来表示图片里面不同物体和场景之间的远近关系。在做渲染的时候如果不考虑空间远近的关系,则有可能导致不同位置的物体和场景在运动时发生空间错位,得到很奇怪的结果。因此,我们需要先得到图片的深度图,根据深度进行分类,把空间中的物体和场景分离出来。而分离出来的结果除了最近的一层,其他每层的结果都是有部分区域被遮挡的。
任务目标分解
所以把图片渲染成视频的目标有以下两个:
- 把每一层被遮挡区域图层的信息修复出来;
- 把每一层修复好的图层结果做一个运动,然后把运动后的图层结果叠加到一起。
目标一实现方式分析
怎么样把每一层被遮挡区域图层的信息修复出来呢?把每一个图层经过修复网络即可,这里不作详细说明。
目标二实现方式分析
怎么让修复好的图层结果做运动呢?首先把每个图层结果经过网络,得到每个图层对应的特征图,所有图层的特征图加到一起,得到的是三维空间的特征信息。我们需要输入两张图,而这两张图分别是开始状态和结束状态。我们把两张图分别输入网络得到的是各自的三维特征信息,然后我们可以根据三维特征信息差异得到从开始图到结束图的在三维空间的空间流动信息。最后通过变换照相机视角的参数来实现各种运动。而照相机视角参数是线性变换或以圆周的轨迹计算的,所以最终的结果是按照一定方向去匀速运动的结果。