关于显著性检测的思考

最新推荐文章于 2024-02-26 20:27:20 发布

stevenashpanl1

最新推荐文章于 2024-02-26 20:27:20 发布

阅读量637

点赞数

本文链接：https://blog.csdn.net/stevenashpanl1/article/details/48929257

版权

梳理visual saliency的定义，视觉显著性是一个主观目标，既有自上而下的任务驱动的注意机制，全局的拓扑认知，也有自下而上的基于局部特征的多层次融合机制。因此显著性也是一个从主观上定义，客观上验证该定义的视觉过程。因此显著性的定义上从主观上是任务驱动的视觉搜索过程，这个过程探讨的是注意机制和眼动机制，客观上是人眼经过多年进化对频域（frequency-domain）和色度空间（HSV，LAB）中特定区域的响应权重，以及特征稀疏性（context and center）的自然关注和非条件反射意义上的关注。可以结合这两点对视觉显著性的定义进行创新或者基于已有的定义略加调整，对特定数据集的特定方法上有所突破。

现有的关于图像分割的数据库，一个是BSD（Berkeley Segmentation Dataset）对自然图像中的景物分割有比较全面的分类和ground truth的数据集。结合上学期老师让同学实现的random walk for superpixel segmentation的代码，对这些数据集的超像素分割进行简单的实验。因为这部分代码可以作为除了局部特征（特征点）和全局拓扑，任务驱动的视觉搜索以外的中间层面的参照，提供关于超像素分割层级的特征级依据。

除了显著性的定义层面以外，人眼视觉在之显著性和轮廓提取中所起的作用，除了“前端”收集像素，局部特征和色域空间以外，更重要的是人脑中对视觉过程的抽象和编解码机制，马尔将这一视觉过程总结为三个构成部分的框架，1D-primal-sketch，2D-surface-orientation， 3D-model-representation，除了视觉的层次性在这里被强调以外，马尔框架更强调的是这一视觉模型的计算特性。因此参考实验室以前做图像风格化的部分成果，在image-abstraction方面希望能找到人眼视觉在图像理解方面的“后台”特性，作为对大量图像的抽象机制的一个参照。

从大量文献之中，得出不管是显著性，还是轮廓提取，主要是在图像处理中获取主要信息，忽略细节和次要信息的一种手段，是一种广义上的稀疏编解码，是为提高理解和抽象图像的效率服务的，因此可以从这一出发点，查阅相关编解码中用到的一些基本方法，由于目前的方向主要是静态图像的显著性和轮廓提取的相关内容，而编解码中大部分还有时域空域频域的多重结合，动态图像或视频和静态图像的人眼感知也有很多不同，因此在参考了部分文章后还是认定从静态图像的已有的方法和实践上先做简单梳理和模仿实验，在掌握了相关实验方法和基本概念以后按照以上从文献中梳理的思路，做一定的创新和改进。