人脑是怎样认知图像的?——成分识别理论(最新模式识别之三)

转载 2011年01月22日 14:36:00

 

Biederman(1987)MarrNishihara(1978)的理论的基础上提出了成分识别理论(recognition-by component theory。该模型基于这样一种观点,通过把复杂对象的结构拆分为称做简单的部件形状,就可以进行模式识别。

这一理论的中心假设是,物体是由一些基本形状(shapes)或成分(components),也就是几何离子(geon)组成。几何离子包括方块(block)、圆柱(cylinder)、球面(sphere)、圆弧(arc)、楔子(wedge)。他认为几何离子大约有36种。

几何离子与特征说中的特征非常相似。“几何离子”:容积本质、形状本质(三维)而非线或角的本质(二维)。

几何离子能够对物体进行充分描述,部分原因是几何离子间的各种空间关系可形成很多种组合,足以让我们识别所有物体。如杯子和水桶:圆弧和圆柱。(英文单词:我们在只有44个因素的情况下仍然可识别数量巨大的英文单词,原因是这些因素具有几乎无限的组合形式。几何子也类似)。

按照的Biederman模型,我们是通过感知或恢复基本的几何离子来识别物体的。如果出现了足够的信息,我们能够觉察出几何离子,那么就能识别物体。但是,如果给我们呈现信息的方式不能让我们觉察出个别的原始离子,就不能识别物体。

几何离子一旦得到分析,它们就和长时记忆中的表征进行匹配,这种匹配是自动化的,具有很快的速度,同时又是很强的,即使在不利的条件下进行观察,也能产生正确的识别。

包含的程序:

第一步是边缘抽取(edge extraction)。是对亮度、纹理和颜色这些表面特征的差异作出发应,并对物体作线条描述(line drawing description)。

第二步是确定一个视觉物体怎样被分解成一些片断,去建立它所构成的成分或几何子。他同意Marr&Nishihara的观点,物体轮廓的凹面部分把表象分解成一些片断很有价值。

另一个关键过程是确定哪些来自物体边缘信息有独立于观察角的关键特征。他认为有关于边缘的不变性特征(invariant properties):曲率(curvature)、平行(parallel)、共端性(co termination)、共线性(co-linearity)。

根据这一理论,可视物体的成分或几何子是基于以上不变性特征而建构起来的。

与不变性相关的重要部分是他所提出的非偶然原则(non-accidental principle)。根据这一原则,蕴含于视觉图像中的哪些规律反应了客观世界实际的(或非偶然的)规律性,而不是依赖于一个给定观察点的次要特征。

非偶然性原则有助于物体识别,但偶尔也会导致错误。

任何正确的物体识别理论都必须考虑捆绑问题(binding problem)。所谓捆绑问题是指,当几个物体同时呈现时,我们必须确定哪些特征或几何子分别属于哪些物体。

Hummel&Beiderman1992)建构了联结主义网络模型,这一模型是由7个层次组成,其输入是一个物体的素描图,而输出则是代表这个物体的单元。那些对某一物体来说具有代表性特征的单元会通过一些快速连线而连接起来,这种策略可保证所有相关单元在同一时间激活。

总的来说,对Biederman1987)提出的这类理论还是有些实验支持的。然而,该理论的中心假设并没有得到直接证明。例如,并无信服的证据支持Biederman提出的36个成分或几何离子确实构成了物体识别的主体框架。

评论:

物体识别的许多理论(近期理论)提出物体识别依赖于以下一系列加工过程:边缘编码、对更高层次特征的组合或编码、对贮存的结构性知识进行匹配、提取语义知识。

在关于三维物体识别的复杂性方面,这些理论相对于那些更强调实际情况的早期理论具有较大优势。RBC模型能解释模式识别的某些实验结果,而且用成分及关系来描述模式识别,也有利于在计算机上模拟人的模式识别。近年来,有人将这一模型应用到汉字识别中(黄荣村,1992),认为汉字也是通过成分及其关系的确认来识别的。但什么是汉字的基本成分——几何离子,汉字包含着哪些关系,是一些尚待进一步研究的问题。

同时,理论还存在以下局限性:

1  对那些具有清晰识别成分的物体来说理论很有效,但当物体不具备这些特征时理论就不怎么适用。

2Biederman提出基于边缘的抽取加工可提供物体识别所需的足够信息,且对这一假说提出了实验证据,然而Sanocki获得了非常有力的证据支持边缘信息常常不足以满足物体识别的加工条件这一观点。

3)理论强调的观点:物体识别涉及一个把以目标为中心的、独立于观察位置的表征与贮存于长时记忆中的目标信息进行匹配的过程。Biederman等人自己的发现支持了这一假设,但其他相关研究没有支持它。

4Biederman以及其他研究者所提出的理论只对相当粗糙的知觉辨认问题(如判断呈现于面前的动物是一只狗还是一头牛)进行了解释,很少涉及同类目标的精细知觉辨认问题。(例如,同样的那些几何离子被用来描述几乎任何一个杯子,但事实是我们可很容易地识别我们日常所用的那个杯子。)

5)这些理论也不重视情景在物体识别中所扮演的重要角色。实验:Palmer1975)先向被试呈现一情景画面(如厨房),然后快速呈现一目标图片;或不呈现任何情景画面。目标图片与情景画面有时相称(如面包),有时不相称(如信箱或圆鼓)。结果,情景对物体识别的正确率具有系统性影响,即当相称时,识别成绩最好;无情景次之;不相称时,成绩最低。

 

   (作者:刘建忠    http://hi.baidu.com/liujianz

 

相关文章推荐

人脑是怎样认知图像的?——原型匹配模型(传统模式识别之二)

这个假说可看作是针对模板说的不足而提出来的。原型说的突出特点是,它认为在记忆中贮存的不是与外部模式有一对一关系的模板,而是原型(Prototype)。原型不是某一个特定模式的内部复本。它被看作一类客体...

人脑是怎样认知图像的?——视觉拓扑理论(最新模式识别之五)

早期的理论(特征分析理论、视觉计算理论和相互作用激活理论)的共同基本点:模式识别开始于对组成模式的简单部分或其局部性质的识别,然后才识别由这些简单部分构成的模式的结构关系。20世纪70年代初 We...

人脑是怎样认知图像的?——相互作用激活理论(最新模式识别之四)

相互作用激活理论(interactive activation model)是麦克利兰和鲁姆尔哈特(McClelland & Rumelhart )于1981 提出。主要处理在语境(conte...

人脑是怎样认知图像的?——注意的特征整合理论(最新模式识别之二)

人脑是怎样认知图像的?——注意的特征整合理论(最新模式识别之二)注意的特征整合理论(feature-integration theory of attention)主要探讨视觉早期加工的问题,因此...

人脑是怎样认知图像的?——特征分析模式(传统模式识别之三)

前面已经说过,模式是由若干元素或成分按一定关系构成的。这些元素或成分可称为特征,而其关系有时也称为特征。特征说认为,模式可分解为诸特征。例如,一个大写的英文字母A可以分解为下列特征(见下图):两条斜线...

人脑是怎样认知图像的?——十种模式识别认知理论简介导引

在许多科幻电影中都会看到,机器人健步如飞,寻找和发现敌人,比我们人类看的远、看的准,力大无比,智慧超群,总是在最危险的时候挽救人类。其实,这些目前还仅仅是科幻,在现实世界中办不到。原因之一就是我们还不...

人脑是怎样认知图像的?——结构描述模式(传统模式识别之五)

结构描述模式一般用图来表示,图的节点表示图像某一部分或某一特性,图的节点之间用有向线段相联,说明图像各部分或各特性之间的关系。图像特征可以是亮度、颜色、纹理、大小、取向、形状等等,特征的描述可以是文字...

人脑是怎样认知图像的?——傅里叶模式(传统模式识别之四)

傅立叶模式认为,人脑长时记忆存储的是图像形状的傅立叶转换模式,而不是图像形状的原形。傅立叶变换的实质是将视网膜得到的图像的密度矩阵分解成一定频率上的信号。也就是说,把在真实世界看到的图像通过一个变换而...

【模式识别】独立成分分析 ICA 中的几种方法

  K-L 变换,也就是PCA,得到的是MSE下的最优结构,但有时对于分类效果并不是很好。所以我们引入了ICA。如果是PCA是使二阶积累量为0的话,那么ICA就是前四阶积累量都是0.那ICA是什么意思...

【理论】视觉对于人脑的认知——记李兆平教授在河海大学常州校区学术会

【人物简介】  李兆平 教授 博士生导师   李兆平 国家“千人计划”入选者。1984年本科毕业于复旦大学物理系,1989年获物 理学博士学位。 先后在费米国家实验室、普林斯顿高等研究院、美国纽约...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:人脑是怎样认知图像的?——成分识别理论(最新模式识别之三)
举报原因:
原因补充:

(最多只允许输入30个字)