神经网络的基本结构
- Convolutions:卷积层
- Subsampling:下采样层
- Full connection:全连接层
应用:
左边为目标检测,右边为图像分割
全连接层
- x1,x2,x3是这个神经元的三个激励,w1,w2,w3是这三个激励对应的权重
- -1是这个神经元的偏置
BP神经网络
- 从左到右的正向传播过程中能够得到一个输出值,将这个输出值和所期望的输出值进行对比就能得到一个误差值
- 通过计算每个节点的偏导数就能够计算得到每个节点的误差梯度
- 将得到的损失值反向应用到损失梯度上,就达到了误差的反向传播过程
BP神经网络应用:车牌识别
1.读入一张彩色的RGB图像,每一个像素里面都包含3个值(RGB分量
- 首先将它进行灰度化,每个像素值就只剩下一个分量了
- 再进行二值化处理,得到一个黑白图像
2.用一个5行3列的滑动窗口在二值化后的黑白图像上进行滑动,每滑动到一个地方就计算这个滑动窗口中白色的像素占整个滑动窗口所覆盖的像素比例
- 当滑动窗口滑动到到最右边的时候,此时列数不够了,可以进行补零处理,也可以进行一个判断,当滑动窗口快越界的时候就暂时把它变成一个5行2列的滑动窗口
- 通过这个方法遍历整个图像就得到一个5*5的矩阵
3.将所得到的5*5的矩阵按行进行展开,并将其拼接成一个行向量(1行25列),这样就可以把这个行向量当成输入神经网络的输入层
4.one-hot编码是常用的对标签进行编码的方式
- 上图展示了0-9每个数字对应的one-hot编码,没有重复
5.有了输入和输出之后,就可以对神经网络进行训练了。在实际训练过程中,可以将输入层的输入节点数设为25,将输出层的输出节点数设为10,中间的隐藏层按实际情况进行设置
卷积层
卷积:一个滑动窗口在特征图上进行滑动,并计算(将卷积核上的值与特征图上的值对应相乘,再进行相加,就得到最后矩阵中的一个值,每滑动一步计算一个值,最终得到卷积结果)
卷积的目的是为了进行图像的特征提取
- 这里的参数指的是神经元的权重
- 权值的共享使得卷积神经网络的参数个数大幅度减少
卷积的过程
卷积核的深度要和输入特征矩阵一致(这里的深度指的是channel,即通道数),都是三维(图中三种颜色的矩阵)的,最终卷积得到的矩阵是由三通道的输入特征矩阵和三通道的卷积核分别对应卷积,再对应相加后得到一个卷积矩阵
总结
1、卷积核的cahnnel与输入特征层的channel相同(都是三通道)
2、输出的特征矩阵channel与卷积核的个数相同(通过卷积核1和卷积核2最终得到一个两通道的输出特征矩阵)
激活函数
- 为什么要使用激活函数?在线性的计算过程中引入非线性因素,使其具备解决非线性问题的能力
- Relu激活函数实际上是将负值全部过滤掉,只保留了正值不变,在实际应用中使用较多
- 在反向传播误差的过程中,如果使用sigmoid激活函数,导数的求解非常麻烦
- 如果使用Relu激活函数,权重如果进入失活状态后无法被再次激活,所以在训练的过程中,建议不要一开始就使用特别大的学习率进行学习,否则很容易导致大量神经元失活
如果在卷积的过程中出现越界的情况该如何处理?
- 一般情况下,可以使用padding的方式在图像的周围直接补零进行处理,补零后就能够正常地进行卷积,而不会出现越界的情况了
池化层
池化层的目的就是对特征图进行稀疏处理,减少数据运算量
maxpooling下采样:寻找池化核对应范围内的最大值来进行最大下采样操作
averagepooling下采样层:寻找池化核对应范围内的平均值来进行平均下采样操作
池化层的特点
1、没有训练参数,只是在原始的特征图上进行求最大值或者平均值的操作
2、它只会改变特征矩阵的宽度(w)和高度(h),并不会改变深度(channel)
3、一般池化核的大小(poolsize)和步长(stride)相同,可以将特征图进行一定比例的缩小,计算更加方便(这只是一般情况下,但并不绝对)