单幅图片的深度估计:给一副输入图像,在候选数据库中找到与它相近的候选项,将候选项调整后,利用候选项已有的深度信息对输入图像进行像素点的深度估计。这么做的原理就是在一个区域内相似的景象的深度也是相似的。
具体做法:首先需要数据库,这里作者用的数据库为作者自己采集的(http://kevinkarsch.com/depthtransfer)视频。有了数据库之后,就是在数据库搜索与输入图像最相近的候选项,这里作者选7个,7个分别来自不同的视频以保证视角的多样性。相似性度量用GIST和optical flow,度量方法采用KNN。有了与输入图像相似的图片之后,相似只是区域相似,如何调整到点相似,采用SIFT flow得弯曲函数y。最后,有了经过弯曲的候选图像,再用函数得到每幅输入图片L的逐个对应像素的深度值D。第一项代表深度估计值与7幅弯曲后的候选图片的深度值之间的差异,第二项代表估计深度的平滑度即梯度应尽量小(这里存在一个缺点,梯度尽量小就只能对输入图像时较平滑,深度变化不大的图像进行深度估计,当深度变化较大时不能对输入图像进行很好的估计),第三项当第一第二项所起作用不大时取数据库中对应像素点的平均深度值,第四项为归一化常数。
在视频中的应用与单幅图片的深度估计类似,只是在单幅图片之上添加了时域信息和运动物体的深度和它所在地面的深度两项