最近在研读"基于机器视觉的红外图像故障识别应用"时,突然有一个想法,我认为今后"感知与识别"问题的进化不是探究更高识别率的视觉算法,而是探究多种感知如何相互配合并识别,因为视觉算法终究是有极限的,倾尽所有也不过是应用那数字图像上的三原色像素,从控制论的角度来看,一个物体是具有多重维度信息的,你只看图像这一维度是不可能完全辨别准确的。我们从人类辨识物体的方法就可以一窥其工作机制,比如说人要辨别一个东西(假设这不是一个"人",因为人类在识别一个"人"是否为熟人时,他往往只通过视觉来判断,绝大多数情况下不会冒着尴尬的风险走上前去问"Hi!请问你是XXX吗?",我们假设他是你没洗的衣服,并且我们把它放到一堆相似的衣服中),首先他需要去看(我想,这也是为什么视觉算法比之于听觉算法、触觉算法更具有普适性的原因,人类一出生就是"看到"这个世界,当他处理外界的信息时,也常常先是转动脑袋去看,然后才是听触嗅(更准确地说,是人用眼辨识物体的代价很小,你不需要做过多的动作而消耗许多能量就可以看到目标范围内的物体,至少你可以分辨出那里有一个"东西",由于我们存在于一个"视觉友好"的环境中,几乎何时何地,物体的图像总能被人眼敏锐地捕捉到,而目标发出的声音常常由于环境的背景音干涉而很难分辨,至于触觉识别只有在人触碰到物体时才能生效,它大大受限于空间距离。总而言之,人虽然能够同时感知一切的物理信息,但听觉嗅觉却无法如视觉处理的效率那般高,触觉由于距离限制有可能毫无用武之地。)),如果他不太确定,便会走近这堆衣服,随着物象在视网膜上的放大,他获取到更多的视觉信息如:形状,色调搭配等,然后看到两件长得一模一样的"疑似衣物",这时,他会拎起两件衣服,一边触摸,感受其质感,并用鼻子闻一闻,此时,他就能八九不离十地"猜出"哪一件衣服是他放了很久没洗的那一件。这则小实验启发了我对未来多感知融合的信息处理框架,首先,我们必须承认各种形式的信息获取的速度不同,可以根据获得信息的速度为不同信息处理程序排序(事实上,由于信息获取的过程是连续的,一开始获得信息的先后其实也决定了之后的信息处理的顺序),分步识别,并令机器逐步缩小与目标物体的距离,重复之前的过程,并在物体处于工作空间范围内时启用触觉等信息处理算法,最终识别物体,并将其映射到数据库中,这个过程中我们需要一个基于多维信息的置信度,用于实时判断待测物体是否为目标,有些信息受限于当前位置无法获取,但我们可以为其分配权重,比如:触觉识别的权重在机器未接触物体时设置为一个较低的权重——0.01,当处于工作范围内时切换其设置为0.3。我们对于世界的认识远远不只是通过视觉,听触嗅等的感觉也是判断物体的重要途径,而且获得信息的速度基本是一样的,微小的差别完全可以忽略不计。未来,这种多感知融合辨识一定是"感知与辨识"问题更好的回答,并大有可用之地,虽然我现在的能力还不足以实现它,但我会坚定这个想法,让它发芽,茁壮成长。
关于多感知融合的设想
最新推荐文章于 2023-06-02 18:10:04 发布