2D转3D技术概论

3D技术能将真实世界中的事物以更加逼真的效果展现给人们。随着人们生活水平的日益提高,对3D效果的需求也越来越大,尤其在医学、影视娱乐等方面,3D技术的应用也层出不穷。然而,相比于3D显示的硬件设备来说,具有3D效果的资源数量明显不足。但是,现在已有非常丰富的2D资源。所以,将传统的2D资源转换为3D资源无疑能有效地解决3D资源匮乏的问题。现有的将2D转为3D主要有两大类主流的方法:一种是基于深度图的3D效果合成;一类是结构重建技术(StructurefromMotion,SFM)重现原始真实的3D场景。

一、基于深度图的3D合成

由于人具有视觉经验和视觉记忆,这些因素构成了人眼的心理立体视觉。当人眼在观看一幅平面彩色立体图片的时候,可以根据图片上的内容判断其中物体、人物之间的距离关系,而这种判断通常十分准确,这说明平面图像中尽管不存在能用人的双眼视差异等生理立体视觉识别的深度信息,却存在着其它的深度暗示,如运动视差、聚焦/散焦、线性透视、大气散射、阴影、遮挡、相对高度以及相对大小等,这些暗示信息是人类对自然景物长期观察而得到的一种立体视觉记忆和立体视觉经验,依靠这种视觉记忆和经验,观察者能够从平面图像中准确地提取出物体间的相对位置和相对深度,人眼的这种立体视觉被称为心理立体视觉。根据人眼的这种特性,可以将平面图像中的深度信息提取出来,再结合原始左视图合成出右视图,这样,合成出的右视图与原来的左视图存在视差,将两幅视图合成后通过3D显示设备即可得到具有3D效果的立体图。

1.基于深度图的3D合成步骤

基于深度图的3D合成过程,主要分为原始图像分析、深度信息提取、深度图生成、新视图合成、立体视图合成五个步骤,下面图1是基于DIBR的3D合成流程图:

上述流程图中,第一步对于给定的一幅单视点平面图像,我们首先需要对图像信息给予分析,如亮度,色度,边缘信息等,从图像中提取出前景与背景;第二步通过图像中各个部分或是对象的不同特点提取它们的深度信息;第三步根据前面提取的深度信息生成深度图;第四步由前面的深度图与原始视图合成新的视图;第五步由原来的视图与新的视图一起合成最终的3D视图。

在基于DIBR的3D合成过程中,深度图的提取是一个很复杂的过程,其中涉及到图像处理的多个方面。深度图质量的好坏直接影响最终的3D合成效果。所以,在深度图的提取这一步上,有很多新的算法相继出现。

1.1.1基于关键帧的深度预测和三边滤波的深度图提取

该算法的主要思想是选取视频序列中的关键帧,对关键帧通过人工给予适当的深度值形成关键帧的深度图,然后其他的非关键帧的深度图则通过运动估计由关键帧的深度图去预测推理得到。这种算法的流程图2所示:

首先,一个视频序列被预先分成许多帧片段,一般帧片段的边界被认为是关键帧。关键帧的深度图可以手动分配,通长使用的工具有Photoshop等图形图像处理软件。

然后,其他非关键帧的初始深度图首先通过运动补偿估计得到:

Dt是t时刻某一帧的初始化估计深度图,Dt-1是在t-1时刻的精确深度图,是一个像素在点的运动矢量,

运动矢量(x,y)可以通过基于颜色信息It和It-1的运动估计过程获得。深度值的预测从邻近关键帧的下一帧开始。改算法中的运动估计是基于宏块的,所以节约了大量的计算时间。

其中三遍滤波器主要用来平滑预测所得到的深度图。

1.1.2利用边缘信息的深度图提取

该方法利用序列图像中物体的边缘信息将图像分割成不同的区域。然后,根据一个假定的深度梯度模型的给不同的区域分配不同的深度图。该方法的主要算法流程图3所示:

其中,初始假设的深度梯度模型有五种,如图4所示:

现实世界中,一般出现较多的是情况(c),所以这种假设在这里最重要,算法中将此种假设作为默认的深度初始值。

1.1.3基于运动与色彩信息的深度图提取

通常地,对于2D的帧序列,每一帧中运动属性不同的物体具有的深度值是不同的,根据这一点,可以从物体的运动属性去提取深度信息;另一方面,颜色信息就没有这种属性了,因为在同一个深度值层面上,不同的物体可能具有不同的颜色。为了估计运动信息,该算法应用LucasKanade’s光流法,并且在计算过程中采用了金字塔方法,能够取得很好的运行效果。

因为一幅图像中景物的边缘两侧通常颜色是不一样的,所以我们可以通过颜色信息来定位边缘的位置。传统的利用颜色对图像分割都是针对整幅图像的,该方法中,只需要利用颜色信息定位边缘位置即可。其中,最小差别信息判别法用来更加精确的处理分割过程。

算法的主要流程如图5所示:

1.1.4基于景物轮廓线跟踪的深度图提取

首先,根据序列中的关键帧通过迭代算法来获得前景物体的轮廓线,对于非关键帧的中景物的轮廓线,我们通过退火算法由前一帧获得。在获得当前帧中前景轮廓的时候,通过光流法和LazySnapping软件代替迭代算法。由于该算法追踪的是前景的轮廓而不是整个前景物体,所以,计算复杂度得到了大大降低。算法的主要步骤如图6所示:

二、基于3D结构重建的3D合成

结构重建技术(StructurefromMotion,SFM)是计算机视觉中一个重要的研究方向,广泛应用于古迹重建,电影制作,城市建模等领域。由于这种技术可以从静止的场景、运动的摄像机拍摄的图片集中获取场景的深度线索,正好符合2D/3D转换方法中的一类情况。所以我们对这种技术在2D/3D转换中的应用做了深入的研究,提出了一种分段化结构重建框架,力求解决一部分场景视频的转换问题。

2.1 2D转3D结构重建技术(SFM)的特点

SFM技术通过图片集中的匹配点来估计三维静止场景中运动摄像机的内外参数和该场景相对于一个参考坐标系的结构关系。用这种技术来获取场景离散的深度信息。然而,基于SFM的2D/3D视频转换方法与传统的基于SFM的视频重建方法相比具有两个明显的特点。首先,传统的基于SFM的视频重建方法所用的视频源专注于一个场景,在2D/3D转换技术中所处理的视频源往往包含多个连续的场景。其次,视频重建的整个过程以一个统一的参考坐标系为基准,追求全局结构的优化;而对于2D/3D转换方法,在多场景的视频片段中深度信息仅仅依赖于对应场景的三维结构信息,而不需要获得整个视频所描绘的三维场景,更加强调局部结构的优化。基于SFM的2D到3D转换结构框图如图7所示:

该方法在视频序列中的场景物体是静止和刚性的情况下能获得很好的重建效果,如序列中含有城市建筑物等,但是,如果场景中的物体是非刚性的或者有模糊的边缘信息时,该方法在重建时效果并不是很理想。

三、结论

由于3D资源的匮乏以及直接获取3D资源的设备构造复杂,价格昂贵,2D转3D在将来很长一段时间内无疑将是获取3D资源的一个重要方法。但是,在2D转3D的过程中仍然存在许多待解决的问题,如深度图的提取、三维结构重建的准确性等。所以,2D转3D也是一项长期而又艰巨的课题。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值