注:学习笔记,参考链接https://www.zhihu.com/question/52668301/answer/131573702
part 1 :背景
我们看到卷积神经网络中神经二字,第一时间就会联想到人类的大脑神经,CNN 的确是从视觉皮层的生物学上获得启发的。视觉皮层有小部分细胞对特定部分的视觉区域敏感。Hubel 和 Wiesel 于 1962 年进行的一项有趣的试验详细说明了这一观点,他们验证出大脑中的一些个体神经细胞只有在特定方向的边缘存在时才能做出反应(即放电)。例如,一些神经元只对垂直边缘兴奋,另一些对水平或对角边缘兴奋。Hubel 和 Wisesl 发现所有这些神经元都以柱状结构的形式进行排列,而且一起工作才能产生视觉感知。这种一个系统中的特定组件有特定任务的观点(视觉皮层的神经元细胞寻找特定特征)在机器中同样适用,这就是 CNN 的基础。卷积体现数学、神经体现生物学、网络体现计算机科学,这诸多学科的融合,才达到神经网络的目的——图像分类:对于输入图像经过操作,得到一组最好地描述了图像内容的分类或分类的概率
通俗的理解,对于人类有一个先天的技能叫做视觉,一个人从出生开始学习,当他认识了一种动物叫做猫之后,在一个随机环境中也能迅速去定位环境中的猫,这就是基于早期知识归纳,迅速识别不同模式,但是机器办不到。我们人类的大脑处理的视觉获取的“图片”,而计算机处理的图像对应的数据,根据数据得出一个对象的置信度,既概率。
2012年,基于CNN,Alex Krizhevsky赢得了ImageNet挑战赛,他的成果将分类误差的记录从26%降至15%,再一次掀起了这一浪潮,之后各大公司开始探索并使用。
part 2 :输入-计算机-输出
当计算机看到一张图像(输入一张图像)时,它看的是一大堆像素值,这也就是输入。根据图片的分辨率和尺寸,它将看到一个 32 x 32 x 3 的数组(3 指代的是 RGB 值)。为了讲清楚这一点,假设我们有一张 JPG 格式的 480 x 480 大小的彩色图片,那么它对应的数组就有 480 x 480 x 3 个元素。其中每个数字的值从 0 到 255 不等,其描述了对应那一点的像素灰度。当我们人类对图像进行分类时,这些数字毫无用处,可它们却是计算机可获得的唯一输入。其中的思想是:当你提供给计算机这一数组后,它将输出描述该图像属于某一特定分类的概率的数字(比如:80% 是猫、15% 是狗、5% 是鸟)。
现在我们知道了问题所在以及输入与输出,就该考虑如何处理了。我们想要计算机能够区分开所有提供给它的图片,以及搞清楚猫猫狗狗各自的特有特征。这也是我们人类的大脑中不自觉进行着的过程。当我们看到一幅狗的图片时,如果有诸如爪子或四条腿之类的明显特征,我们便能将它归类为狗。同样地,计算机也可以通过寻找诸如边缘和曲线之类的低