这篇博文让我对卷积神经网络有了更好的理解,我把要点整理在这里,供以后回顾:
如果你对神经网络也不是很熟悉的话,请戳这里
卷积神经网络( ConvNets或者CNNs)是神经网络的范畴。
应用领域:图像识别、语音识别、自然语言处理(如语句分类)。可以识别人脸、物体和交通信号,从而为机器人和自动驾驶汽车提供视力。也可以识别场景,提供相关的标签。
LeNets架构(1990s)
LeNets是最早的卷积神经网络。
经过多次成功迭代,1998年,Yann LeCun 把这项工作命名为LeNets5。该架构主要用于字符识别,如邮编,数字等。
卷积神经网络如下图所示:
主要有四个操作:
- 卷积
- 非线性处理(ReLU)
- 池化或亚采样
- 分类(全连接层)
图像是像素值的矩阵
通道:用于表示图像的某种组成。一个标准数字相机拍摄的图像会有三通道 - 红、绿和蓝;你可以把它们看作是堆在一起的深度为3的二维矩阵(每一个通道代表一个颜色),每个通道的像素值在 0 到 255 的范围内。
灰度图像:仅仅只有一个通道,就是一个普通的二维矩阵。矩阵中各个像素的值在 0 到 255 的范围内——零表示黑色,255 表示白色。
卷积
卷积的目的:为了从输入图像中提取特征。卷积可以通过从输入的一小块数据中学到图像的特征,并可以保留像素间的空间关系。
原始图像: