定义
卷积神经网络用于计算机视觉,也就是计算机图像(视频,文本,音频等),比如,人脸识别,自动驾驶。
卷积神经网络相当于一个函数,黑盒(接下来破解这个黑盒),有输入和输出
运算步骤
1.卷积运算
通过合适的卷积核(滤波器)对原图像进行卷积运算,得到新的Feature Map,下图中使用从左上到右下的卷积核,在对原图进行卷积运算时,最后的结果中可以明显看出1.00的位置是符合现实的。
以此类推,使用中间的3维矩阵和从左下到右上的3维矩阵即可得到3个Feature Map。
2.池化
因为现实世界中数据很多,如果每个都进行卷积运算后会得到很多数据,不利于系统的反应,所以加入池化(Pooling),使数据量在减小的时候,也不会顺势数据。
一般使用Max Pooling.
因为图像的边缘也充满了特征,所以引入Padding(填充),用来保存边缘数据。
3.激活函数
一方面,有利于矩阵计算,另一方面,对后面的梯度下降也是有好处的。
4.全连接层
和前面的每一个神经元都进行连接的。
把Pooling的结果按一维矩阵的形式排排坐。
需要通过训练得到的
权重如何选择,以及卷积核如何选择?
答案是需要训练。
ImageNet网站进行数据训练的数据来源
在这个过程中,进行损失函数的计算,不断正向反向传播,来不断减小所有需要的参数。使得损失函数最小。
使用梯度下降方法!
5.超参数的设定
只需要使用已经撘好的、成熟的框架即可。例如VGG16等。