ITTI视觉显著性模型

最新推荐文章于 2024-07-30 15:40:41 发布

GHelpU

最新推荐文章于 2024-07-30 15:40:41 发布

阅读量2.3w

点赞数 17

分类专栏：图像处理文章标签： ITTI 显著图视觉显著图区域检测

本文链接：https://blog.csdn.net/weixin_42647783/article/details/82532179

版权

图像处理专栏收录该内容

5 篇文章

订阅专栏

1 简介

ITTI视觉显著性模型是根据早期灵长类动物的视觉神经系统设计的一种视觉注意模型[1]。该模型首先利用高斯采样方法构建图像的颜色、亮度和方向的高斯金字塔，然后利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，最后结合不同尺度的特征图即可获得亮度、颜色和方向显著图，相加得到最终的视觉显著图，如下图所示（引用自原文）。该方法不需要训练学习的过程，仅通过纯数学方法，便可完成显著图的计算。

2 算法

论文算法的输入是尺寸为 $640\times480$ 的静态彩色图像，包括r、g、b三个通道。

2.1 高斯金字塔的构建

高斯金字塔包括三部分，分别是亮度、颜色和方向。

首先要对r、g、b三个通道做高斯降采样，从而获得九个尺度下的三通道图像 $r(\sigma)$ 、 $g(\sigma)$ 、 $b(\sigma)$ ，其中 $\sigma \in \left\{ 0..8 \right\}$ 。

然后即可构建亮度高斯金字塔，在九个尺度下计算 $I=(r+g+b)/3$ 获得 $I(\sigma)$ ，这里需要根据 $I(\sigma)$ 再对 $r(\sigma)$ 、 $g(\sigma)$ 、 $b(\sigma)$ 做归一化处理，以便将色调与亮度分离，原因在于低亮度下色调难以分辨。而每一个像素点的归一化仅对亮度 $I>Maxinum/10$ 的点进行，而其余的点将置零，其中 $Maxinum$ 表示点所处的尺度的图像中最大的亮度值。

接着即可构建颜色高斯金字塔，在九个尺度下计算

$R(\sigma)=r(\sigma)-(g(\sigma)+b(\sigma))/2$

$G(\sigma)=g(\sigma)-(r(\sigma)+b(\sigma))/2$

$B(\sigma)=b(\sigma)-(r(\sigma)+g(\sigma))/2$

$Y(\sigma)=(r(\sigma)+g(\sigma))/2-\left | r(\sigma)-g(\sigma) \right |/2-b(\sigma)$

以上四个分别代表红、绿、蓝、黄的颜色高斯金字塔。

最后利用Gabor滤波器构建Gabor方向金字塔 $O(\sigma,\theta)$ ，其中 $\sigma \in \left\{ 0..8 \right\}$ ， $\theta \in \left\{ {{0}^{\circ }},{{45}^{\circ }},{{90}^{\circ }},{{135}^{\circ }} \right\}$ 。

2.2 特征图的构建

上述获得亮度、颜色和方向高斯金字塔后，利用Center-Surround方法（Center(c)即精细尺度，Surround(s)即粗尺度）计算对应的特征图。计算方法为：

$I(c,s)=\left| I(c)\ominus I(s) \right|$

$RG(c,s)=\left| (R(c)-G(c))\ominus (G(s)-R(s)) \right|$

$BY(c,s)=\left| (B(c)-Y(c))\ominus (Y(s)-B(s)) \right|$

$O(c,s,\theta )=\left| O(c,\theta )\ominus O(s,\theta ) \right|$

其中 $c \in \left\{ 2,3,4 \right\}$ ，而 $s=c+\delta$ ， $\delta \in \left\{ 3,4 \right\}$ 。以上的 $\ominus$ 表示将两个图像的尺寸调到一致后做矩阵减法操作，I表示亮度特征图，RG和BY表示颜色特征图，这是利用了大脑皮质的“颜色双对立”系统，O表示方向特征图。所以总共生成的特征图有 $6+12+6\times4=42$ 张特征图。

2.3 显著图的构建

模型在缺少自顶而下的监督机制的条件下，提出一个特征图归一化操作运算符 $\mathcal{N}\left( \cdot \right)$ ，该操作过程基于大脑皮质侧向抑制机智，可以增强存在少量活动峰（即尖锐值）的特征图，抑制存在大量活动峰的特征图。其操作方法如下：

（1）首先对输入的特征图归一化至统一范围 $\left [ 0..M \right ]$ ；

（2）找到该特征图的全局最大值M所在位置并计算其他所有局部最大值的均值 $\overline{m}$ ，然后把整个特征图同乘以 $(M-\overline{m})^{2}$ ；

如下图所示，中间列上图便是存在大量活动峰的特征图，经过 $\mathcal{N}\left( \cdot \right)$ 操作后得到的特征图整体较为平滑，活动峰被抑制，中间列下图是存在少量活动峰的特征图，经过 $\mathcal{N}\left( \cdot \right)$ 操作后得到的特征图在原有的活动峰处得到了增强。

通过以上操作符结合获得的42张特征图，即可计算最后的视觉显著图，计算方法如下：

$\bar{I}=\underset{c=2}{\overset{4}{\mathop{\oplus }}}\,\underset{s=c+3}{\overset{c+4}{\mathop{\oplus }}}\,\mathcal{N}\left( I\left( c,s \right) \right)$

$\bar{C}=\underset{c=2}{\overset{4}{\mathop{\oplus }}}\,\underset{s=c+3}{\overset{c+4}{\mathop{\oplus }}}\,\left[ \mathcal{N}\left( RG\left( c,s \right) \right)+\mathcal{N}\left( BY\left( c,s \right) \right) \right]$

$\bar{O}=\sum\limits_{\theta \in \{{{0}^{\circ }},{{45}^{\circ }},{{90}^{\circ }},{{135}^{\circ }}\}}{\mathcal{N}\left( \underset{c=2}{\overset{4}{\mathop{\oplus }}}\,\underset{s=c+3}{\overset{c+4}{\mathop{\oplus }}}\,\mathcal{N}\left( O\left( c,s,\theta \right) \right) \right)}$

以上的 $\oplus$ 是指将多个图像（即矩阵）调至同一尺寸后相加的操作，于是得到了亮度、颜色和方向显著图，最终的显著图S为

$S=(\mathcal{N}(\bar{I})+\mathcal{N}(\bar{C})+\mathcal{N}(\bar{O}))/3$

一般在目标检测中，根据设定的阈值检测显著性目标，设定的阈值逐渐下降，得到的显著性目标就会逐渐增多，同时检测时间也会增加，论文实验如图所示。

3 实验结果

论文在不同的加性噪声下对同一图像的检测效果如下图所示

论文还对比了Reinagel和Zador提出的SFC（Spatial Frequency Content，空间频率内容模型）在检测目标上的效果，实验结果表明，ITTI模型对于噪声具有较好的鲁棒性，而SFC模型则做没有[1]。实验对比如下图所示，(a)是待处理的图像，(b)是ITTI模型得到的视觉显著图，(c)是SFC模型得到的显著图，(d)是两种模型对检测目标的标记，标记显著图中大于最大值的98%的部分，其中黄色的标记是ITTI模型得到的结果，红色的标记是SFC模型得到的结果。

4 参考文献

[1] Itti L, Koch C, Niebur E. A Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(11):1254-1259.

[2] Itti L, Koch C. Computational modelling of visual attention.[J]. Nature Reviews Neuroscience, 2001, 2(3):194.

原创性声明：本文属于作者原创性文章，小弟码字辛苦，转载还请注明出处。谢谢~

代码下载请到https://download.csdn.net/download/weixin_42647783/11061816。

如果有哪些地方表述的不够得体和清晰，有存在的任何问题，欢迎评论和指正，谢谢各路大佬。

有需要图像处理相关技术支持的可咨询QQ：297461921