这一系列,是作者阅读李沐、阿斯顿编写的《深度学习PyTorch版》所作的笔记,作者目前关于深度学习所作的思考和实现的能力都较浅,阅者见谅。
为有效利用每张图像的空间结构信息,而不是简单的将图像数据展成一维向量,卷积神经网络出现了。卷积神经网络的优点:①高校采样获得精确的模型 ②高效的计算
6.1 从全连接层到卷积
多层感知机很适合处理表格数据,行对应样本,列对应特征。当不能预先假设任何与特征交互相关的先验结构时,多层感知机可能是最好的选择。然而对于高维数据,缺少结构的网络会变得不实用。
6.1.1不变性
平移不变性:不管检测哪个位置,神经网络前面几层应该对相同的图像区域具有相似的反应。
局部性:神经网络前面几层应该只探索输入图像的局部区域,不过度在意图像中相隔较远的区域。最终聚合局部特征进行预测。
6.1.2多层感知机的限制
卷积神经网络:包含卷积层的一类特殊的神经网络。
V卷积核/滤波器:可简单的解释为该卷积层的权重,通常该权重是可学习的参数。
6.1.3卷积
卷积是当把一个函数“翻转”并移位给x时,测量f与g之间的重叠。当为离散对象时,积分就变成了求和。
6.1.4“沃尔多在哪里”回顾
通道:图像一般包含3个通道//3种原色。图像不是二维张量,而是由高度、宽度、颜色组成的三维张量。
隐藏表示:可想象为一系列具有二维张量的通道,这些通道有时也称为特征映射,因为每个通道都向后续层提供了一组空间化的学习特征。
一组隐藏表示:一些相互堆叠的二维网格。
6.2图像卷积
卷积神经网络的图像实际应用
6.2.1互相关运算
卷积层(一个错误的运算):它想表达的是互相关运算而不是卷积运算。在卷积层中,输入张量核张量通过互相关运算生成输出张量,如下图1所示
图1 卷积层互相关运算图
卷积窗口从输入张量的左上角开始,从左到右,从上到下滑动。当滑动到一个新位置时,包含在该窗口的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到单一的一个标量值。(输出大小小于输入大小,为保证输出大小不变,须在图像边缘填充0保证有足够空间移动卷积核)
代码实现: