识别图片当中是否有某一物体_人工智能探索2——浅谈人类视觉系统的物体识别...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39812465/article/details/111647135

本文深入探讨人类视觉系统中的腹侧通路（VP）和背侧通路（DP），阐述它们在物体识别和运动识别中的作用。VP通过特征识别实现物体识别，而DP负责运动识别。文章引入了双通路卷积网络（Two-stream Convolutional Networks），模仿人类视觉双通路，用于视频物体识别，证明了运动信息在视频识别中的重要性。

摘要由CSDN通过智能技术生成

本文介绍人类视觉系统的主要通路：腹侧通路(Ventral Pathway)负责物体识别和分类，背侧通路(Dorsal Pathway)负责运动识别和控制。

本文最后对比解读人类视觉双通路和用于视频物体识别的双通路卷积网络(Two-stream Convolutional Networks)。

在上一篇“人工智能探索——浅谈人类神经网络的复杂性”[1]阅读原文文章中，我们初步介绍了人类视觉系统的主要构成，以孔径问题(Aperture Problem)和边缘所有权(Border Ownership)问题为例，介绍了视觉皮层V1、V2和MT(V5)的部分功能。文章末尾对比了人类视觉系统和深度神经网络构建的计算机视觉模型，提出四点不同。

灵长目视觉系统 Figure from Ref[2]

本文将继续介绍人类视觉系统的其他部分，重点讲解腹侧通路(Ventral Pathway，VP)和背侧通路(Dorsal Pathway，DP)两条主要通路。简单来说，VP通过感知边缘(Edge)、双目视差(Binocular Disparity)、曲率(Curvature)、颜色、光亮等特征实现物体识别(Object Recognition)[2]；DP通过局部运动(Local Motion)、速度梯度(Motion Gradient)、光流(Optical Flow)等信息实现运动识别(Action Recognition)[3]。受此启发，牛津大学(University of Oxford)的Andrew Zisserman教授设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4]，在本文最后我们将给予解读。

视觉皮层功能和等级性

在人类视觉系统的众多特点中，高度的等级性(Hierarchy)是最主要的一点[2]。这种等级性不光停留在神经元细胞分层上，更体现在以下多个方面：一、不同功能层具有不同的细胞类型，而非同一种神经元细胞简单的多层重复；二、神经元细胞层间有较明确的界限，比如外侧膝状体核(Lateral Geniculate Nucleus，LGN)具有六层神经元细胞；三、视觉信号从低层向高层映射，对应的神经元细胞感受野逐层增大；四、不同层次处理的视觉信号由简单到复杂、由局部到整体，具有可解释性；五、层内信号传播速率比跨层传播高一个数量级[5]，所以在时域上依然保留了信号先后到达的等级性。

人类视网膜(Retina)上的光感受器(Photoreceptor)主要有两种，视锥细胞(Cone Cell)和视杆细胞(Rod Cell)。同样位于视网膜上的神经节细胞(Ganglion Cell)收集光感受器的光强和颜色信号，经过视交叉(Optic Chiasm)传递给外侧膝状体核LGN。LGN左侧的皮层收集来自于双眼的右侧视野信号，LGN右侧的皮层收集双眼左侧视野信号。LGN对颜色变化和时域变化进行初步加工，为边缘检测(Edge Detection)和运动检测(Motion Detection)做准备。另外，双眼的信号在LGN依然是分离的，未对双目视差进行处理。