图像视频的显著性检测复习

一、显著检测定义

       利用算法模型找到人眼关注的区域。

二、应用

       显著性检测可以应用到其他视觉任务中

三、显著性检测的模型

大概大致可以分为两类:

(1)人类注视点预测(Human eye fixation prediction):显著的区域,加高斯

(2)显著目标预测(Salient object detection):显著的目标

以输入的数据分类

(1)2D image;

(2)3D image(2D+depth,例如RBG-D数据集;left+right image)

        depth image 类似于灰度图,只是它的每个像素的值是传感器(摄像机)距离物体的实际距离

        视差图:物体离观察者越近,左右眼所见物体差别越大,这就形成了视差。大脑可以利用这种视差,估计物体离自己的距离;

        3D图可以分解为左右视图,左右视图可以合成视差图,视差图可以转化成depth图;

(3)2D video

(4)3D video (一系列左图+一系列右图)

(5)光场图片

        传统相机成像原理是光线穿过镜头,到达成像平面。光场相机在镜头和成像平面之间增加了微透镜阵列(micro-lens array),达到不仅记录光线的位置信息(x, y),还有方向信息(u, v)。可以做到先拍照,后聚集的效果。

(6)多光谱图片、高光谱图片

        多光谱图片:rgb+红外...;

        高光谱图片:几十个通道,或上百个通道

(7)360度图片、全景图片(panorama image)

        在同一时刻,记录周围所有方向信息,360度图片(即全景图片)的保存形式有两种:

            1)cubic format;

            2)  equirectangular format.

(8)遥感图片

 

四、常用的显著性检测方法

(1)自底向上(bottom-up)

        纯粹的受周围外部因素刺激驱动,例如低阶特征颜色(如下图),亮度,方向,纹理信息。与周围特征对比度越大,则越显著。

(2)自上而下(top-down)

        受主体控制,与任务相关。如下图,如果当前视觉任务是有多少人,显著区域落在人上;如果任务是他们的发行分类,则视点会落在头上。

(3)深度学习模型

        以上两种都是基于手动提取特征,而深度学习,通过使用不同的卷积,可以自动提取不同特征,加深网络可以提取高阶特征(high-level feature)。

 

 

参考: (1) 3D image: 点击打开链接

        (2) 视差图:点击打开链接

 

没有更多推荐了,返回首页