系列文章目录
上一篇文章简单的介绍了卷积神经网络及一些基础知识,比如说步长,填充,互相关运算等,这篇文章讲介绍卷积神经网络的组成及常见的几种神经网络。
前言
卷积神经网络是全感知器模型的一种,其在处理声音,图像方面有着得天独厚的优势。常见的卷积神经网络模型有三种,即VGG,NIN,GoogLenet
一、卷积神经网络
卷积神经网络是很吸引人的。在短时间内,它们变成了一种颠覆性的技术,打破了从文本、视频到语音等多个领域所有最先进的算法,远远超出了其最初在图像处理的应用范围。
1,为什么要使用卷积神经网络?
传统算法处理图像的时候具有一定的局限性,通常的做法是,首先将图片按照像素逐行展开,然后输入到全连接层中去处理。这样做可以处理图片,但是随之而来的问题是会丢失图片的空间信息,而且,数据量过大,参数过多,效率低下。
比如说,一张图片由像素点组成,30*30的矩阵,如果将其转换成一列数组,即30*30=900,这一列向量和隐含层的10个神经元连接,就有900*10=9000个权重w,隐含层和最后的输出层的10个神经元连接,就有9000*10=90000个权重w,再加上隐含层的偏置项10个和输出层的偏置项10个,就是:90020个参数了.
过多的参数和计算机技术的落后,限制了卷积神经网络的发展,直到CNN的出现,对于图像的处理才得到进一步的提升。cnn尝试去解决这个问题,一方面,卷积层保留输入形状,使得图像的像素在高和宽两个相关性上被有效识别,另一方面,卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算,从而避免参数尺寸过大。
2,CNN的组成
卷积神经网络是一种深度学习模型,类似于人工神经网络的多层感知器,常用来分析视觉图像。 CNN主要由数据输入层,卷积层,激励层,池化层,和全连接层,将这些层连接起来,形成了卷积神经网络。
卷积神经网络的层级结构:
- 数据输入层
- 卷积层
- 激励层
- 池化层
- 全连接层
如下图,当我们对于小轿车识别时,有卷积层,激励层,池化层和全连接层,识别的结果最后一行中展示。
2.1 数据输入层
CNN中输入 RGB图片,使用RGB图片的原因在于RGB三通道图片,输入图片有三通道,R通道,G通道,B通