一、问题导入
之前的文章里我们用“方向梯度直方图”提取特征、用“支持向量机”算法训练模型,完成了图像分类的任务。但是这种方法训练出来的模型,效果并不是很理想。实际上,早期的图像分类技术已经到了一个“瓶颈期”。卷积神经网络的出现,给人们带来了惊喜。那么,卷积神经网络是什么呢?它与支持向量机相比,又有什么优势呢?
二、知识学习
1、卷积神经网络
卷积神经网络做图像分类时,分类的准确率得到了大大的提升。同时也降低了人工智能系统的复杂度。在传统的图像分类模型的训练中,特征提取和训练分类模型是分开两个步骤的,而卷积神经网络将这两个步骤集成在了一起。我们只需要输入一张图片,模型就能够做预测,并不需要人工提取特征了。从这个角度来说,卷积神经网络是对传统的机器学习的改进。
卷积神经网络训练模型要比传统的机器学习算法训练模型少特征提取一个步骤。卷积神经网络中,我们把特征提取的工作也交给机器自己来完成。
2、卷积神经网络的结构
卷积神经网络是由一个个按照顺序连接的层组成的。第一层一般以图像为输入,进行特征的提取。接下来每一层都是以前一层提取出的特征为输入,对其进行变换。这种多层次的网络,使卷积神经网络有了强大的提取特征的能力。这是一个由简单到复杂、由低级到高级不断变换的过程。
卷积神经网络一般是由卷积层、池化层、非线性激活层、全连接层和归一化指数层等组成。卷积层、池化层和非线性激活层一般用来提取特征,将图片转换为特征向量,再经过全连接层和归一化指数层就可以得到最终的分类模型。
接下来,我们用“卷积神经网络”来训练手势识别的模型。我们这里的“手势识别”模型由两个卷积层、两个池化层和两个全连接层组成。经过卷积层和池化层提取特征向量,然后对图像进行分类。接下来,我们分别对这些层进行介绍。
(1)卷积层
卷积层是卷积神经网络处理图像的时候经常用到的一个层。我们的手势图像经过图像预处理之后,变成了28X28像素的黑白图像。这些像素都是由0-255之间的数字表示的。机器通过识别每个像素点的色值来提取特征。将每个像素点中的颜色都用数字表示,就可以得到一张28X28的数字矩阵,图片信息也就存储在这张数字矩阵中。