《中国人工智能学会通讯》——4.22 让机器具有视觉注意功能-CSDN博客

4.22 让机器具有视觉注意功能

视觉注意（Visual Attention）是指心理资源被有选择性地分配给某些视觉认知加工过程，使得这些过程对信息的加工更加快速、准确。视觉注意功能对于协调人的各种视觉认知加工过程非常重要。人类每时每刻都接受着大量的外界信息，处于被“信息轰炸”的状态。据估计，每秒钟大约有 1 亿位的信息量投射到人眼视觉感光神经上[1] ，这远远超出了大脑能够完全直接处理和理解的范围。我们有限的心理资源和神经资源不可能同时、同等地处理如此大规模的信息，只能选择性地处理那些优先级相对较高信息，而忽视那些优先级较低的信息。视觉注意的作用正是体现于此。

同样地，在数字世界里，与视觉数据的生产及处理需求相比，我们在现实物理计算系统方面所取得的进展相对滞后，现有视觉数据处理的能力和资源相对而言仍非常有限。在数据体量的层面上，以天津市为例，根据正在启动实施的《天津市社会治安防控体系视频监控网络规划设计实施方案（2015—2017）》，规划全市视频监控探头总数 110 万个，联网探头 11.5 万个，每天产生数据约 23.21 PB 1 。在智能化层面上，以周克华案侦破过程为例，长沙市警方投入超过 2 000 人警力回看视频，视频总时长相当于 83 万部电影2 。

由上述现状与趋势可以看出，赋予计算系统一定的选择能力，从而优化资源分配，提高信息处理效率，极具必要性和紧迫性。视觉显著性（Visual Saliency）分析即是一种可以赋予机器以视觉注意功能的技术，它能够将人们可能感兴趣的，或者更具判别价值的信息成分，从影像中分离出来，以便后续进行更深入的处理与分析。

需要说明的是，视觉显著性的概念有两种基于不同动因的理解——认知驱动或计算驱动。前者是通过模拟的方式理解人的视觉注意选择过程，验证视觉注意的行为及心理机制（结合心理物理学、功能性磁共振成像、高密度脑事件相关电位等相关数据所建立的模型）。而本文主要关注另一类动因下的视觉显著性模型，即从计算机科学的角度出发，意图提供一种信息优选技术。有关认知驱动的视觉显著性分析模型的介绍可参见文献 [2]。