卷积神经网络

blue-bridge

于 2021-09-26 20:46:07 发布

阅读量136

点赞数

文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/chentao2001/article/details/120496691

版权

卷积神经网络来由

全连接前馈网络参数过多
针对视觉世界
1. 像素与像素之间，主要与其附近的像素有关，与其距离较远的像素无关–局部不变性
2. 像素的统计性指标再图像中相对统一–统计平稳性
3. 对于物体的识别不依赖于它在图像中的位置–平移、旋转、缩放不变性
4. 被识别的目标由各个部分构成–构成性
5. 全连接前馈网络很难提取这些局部不变特征

=> $\star$ 感受野–视网膜特定区域，只有给区域内的刺激才能激活该神经元

卷积神经网络

对视觉世界特性的利用
1. 局部不变性：核（感受野），局部连接
2. 统计平稳性：权重共享（每个位置都用相同的卷积核）
3. 构成性：感受野随着网络的加深而加大，更深层次的单元可能会间接地于更大的输入部分交互（不断提取特征，相当于压缩图像，同样大小的视网膜区域能够看到更大范围的特征）
4. 平移、旋转、缩放不变性：空间或时间上的池化（下采样）
结构
1. 卷积层Convolution
  1. 卷积核（过滤器，在一个卷积层中可以存在多个卷积核）
    1. 一维卷积：一维卷积核
    2. 二维卷积：二维卷积核
    3. 三维卷积（通道）：三维卷积核
  2. 滑动步长
  3. 零填充
  4. 输出（特征图谱）大小计算
    $假设输入矩阵大小为W_1\times H_1，步长为S，\\ 宽度上的填充数量为P_W，高度上的填充数量为P_H，\\ 过滤器大小为F_W\times F_H，则输出矩阵大小为W_2\times H_2\\ W_2=\frac{W_1-F_W+P_W}{S}+1\\ H_2=\frac{H_1-F_H+P_H}{S}+1\\ 若存在多个通道channel（三维），即输入矩阵为W_1\times H_1\times c，\\ 过滤器为F_W\times F_H\times c，输出矩阵为W_2\times H_2\times 1$
  5. 非线性激活函数
    1. 修正线性函数relu： $o u t p u t = m a x (0, i n p u t)$
    2. Tanh
    3. sigmoid
    4. Prelu
  6. 空洞卷积–通过给卷积核插入空洞来变相地增加感受野的大小
    $\star$ 如何增加输出单元的感受野：增加卷积核的大小；增加层数；在卷积之间进行汇聚（池化）
2. 池化层Pooling
  1. 引入先验假设：输出单元对输入的微小平移、扭转等保持不变
  2. 常用最大池化，标准做法是平铺（无重叠滑动）
  3. 作用
    1. 保留显著特征（显著像素），降低维度，增大卷积核的感受野，防止过拟合
    2. 增加了对位移的鲁棒性，可以忽略目标的微小平移、扭转之类的相对位置的变化（目标在不同的图像中的相对位置可能不同，但经过下采样后的特征图谱几乎一致），提高精度
  4. 由于特征图谱变小了，精确度可能受到影响，所以需要增加深度
3. 填充Padding的作用
  1. 在卷积层中：使得输入输出维度一致
  2. 在池化层中：保持边界信息（图像边缘的像素点只会被卷积一次，中间的像素点会被卷积多次，于是边界信息的参考程度降低，而经过填充后边界像素点可以被卷积多次）
$\ \ \ \ \star$ 常用多层的小卷积核来替换大的卷积核，减少计算量和参数量
$\ \ \ \ \star$ 残差网络
应用
1. 图像识别：对图片的特征提取，往往不必从头训练一个深度网络
  1. 使用当前最佳的Imagenet数据集训练好的网络来作为特征提取器
  2. 针对自己要解决的问题添加一个新的Softmax层
  3. 用自己的数据训练做微调
2. 文本处理