卷积神经网络的本质对是人的视觉形成进行的模仿操作。
人能够识别不同大小、不同角度的相同物体,那么卷积神经网络中的池化、卷积中的扫描就是相同的目的。
人能够识别不同类型的物体,识别的过程,也是识别物体特征的过程,每次注视只能注视一个点,最后通过扫视,形成物体的全貌。比如一只猫,第一眼看的是猫的形状、然后是局部细节等,只有都符合,才能准确判断这是一只猫。卷积神经网络中的卷积负责的是物体特征的提取,提取出物体特征或局部特征的形状、颜色、角度、距离等等等等,然后通过神经网络进行特征的非线性组合,最终给出判定结果。通过反向传播算法,对非线性组合的方式进行优化,让只有通过某种特定的非线性组合的方式,将提取的视觉特征进行组合,才能够得到正确判定结果。
多年视觉分类比赛中的算法,大多是对这个过程的优化与完善。
由对该算法的理解我想到了,如果是对自然现象的模拟,比如人识别一个物体,从自然出发真的是一个极好的出发点。
还有就是,对于特定的任务,要根据任务的特点来选择特征提取的技术、特征组合的技术。以到达就事论事的目的。