视觉查询:视觉思考的基石
1. 大脑中的视觉认知真相
在我们探索视觉思考的奥秘时,首先要了解一个重要的事实:我们的大脑中并不存在世界的视觉模型。过去几年里,关于变化盲视、注意盲视的现象以及对视觉工作记忆容量的研究都表明,我们在每次注视之间不会保留太多关于世界的信息。
变化盲视是指当场景中的某些变化在不被注意的情况下发生时,我们往往难以察觉。注意盲视则是指当我们将注意力集中在某一事物上时,会忽略其他明显的事物。而视觉工作记忆的容量有限,无法长时间、全面地存储我们所看到的所有信息。
我们对详细视觉环境的印象,其实来源于我们能够快速移动眼睛并随意采样环境的能力。我们在任何给定时刻所看到的内容,取决于我们试图完成的任务。例如:
- 当我们需要在人群中找到一条通道时,我们会看到人群中的空隙。
- 当我们试图寻找一位朋友时,我们会关注周围的人脸。
2. 视觉查询:看的过程新视角
我们可以将看的过程视为对环境执行连续的视觉查询流。根据手头的任务,大脑会构建一个视觉查询,然后我们会执行视觉搜索来满足这个查询。
2.1 视觉查询的构建
大脑会将问题的各个组成部分转化为可以通过模式发现来回答(或测试)的问题(或假设)。这些问题会被进一步转化为具有搜索模式形式的视觉查询。例如,当我们要在一幅画中寻找特定颜色的物体时,大脑会构建一个以该颜色为搜索模式的视觉查询。
2.2 视觉查询的执行
执行视觉查询时,我们会使用视觉眼动扫描策略来搜索显示内容。在每次注视过程中,主动注意力会决定从进行模式分析的视觉皮层子系统中提取哪些模式。模式和对象会从一个原始模式空间中