学术派 |用深度学习实现2D到3D的转换

爱奇艺技术产品团队

于 2020-05-08 19:15:00 发布

阅读量3.3k

点赞数 5

本文链接：https://blog.csdn.net/weixin_38753262/article/details/106010231

版权

随着 5G 时代的到来，VR 端应用呈爆发式增长，3D 内容作为构建 VR 生态的主力输出一直深受广大用户的追捧和喜爱。针对目前 3D 内容过少，质量不高、生产昂贵等现状，爱奇艺作为国内领先的互联网视频媒体，自然首当其冲，以真实世界的 3D 内容为基础，研究2D 转 3D 技术，实现更优质的 VR 端的 3D 内容生态的构建，满足更多用户的日常需求。

相对于 2D 内容，优质的 3D 内容有输出符合真实景深关系的能力，让用户在观看时具有更好的观影体验。下面我们从技术的角度，介绍爱奇艺如何赋予2D内容真实的景深关系，实现 2D 内容到 3D 内容的转换。

面临的挑战

目前 2D 转 3D 技术主要问题是转制成本太高，不能大面积使用，如使用一般的策略很难适用多种场景的真实 3D 视差关系，这很容易让用户感到不适。

综合以上原因，我们考虑采用深度学习方法，通过对大量 3D 电影（side-by-side 的双目介质）真实视差的学习与建模，完成单目视图到双目视图的转换。

以下是2D转3D技术面临的几个挑战：

数据集质量

3D介质中包含大量不符合真实视差关系的双目视图
受相机参数的影响，同类场景的视差在不同的 3D 介质中不统一

帧间抖动

场景多样化，需要保证视差预测的连续性与准确性
重构视图的遮挡区域空洞的填补

3D 效果的评价指标难以量化

同类场景具有不同的并且满足真实世界的视差关系
3D 效果依靠人工评价，过于主观

模型原型思路

通过对大量用户的调研发现，除去特效场景刺激眼球外，3D 介质的 3D 感知越符合真实世界越受用户喜爱，因此在模型构建上必须符合真实世界的 3D 观感——双目视觉

图1双目相机成像与视差原理

如图 1 左所示，两个相机拍摄同一场景生成的图像会存在差异，这种差异叫视差，其产于与真实的三维空间。视差不能通过平移消除，同时离相机近的物体视差偏移较大，反之越小。

人的左右眼就如同图中的左右相机一样，分别获取对应图像后，通过大脑合成处理这种差异，从而获取真实世界的 3D 感知，通过图 1 右可得出视差与相机焦距和轴间距间的关系：

公式（1）

其中为物体距离相机的深度，为三维映射到二维的图像平面，

最低0.47元/天解锁文章