1.一个卷积层事例
对卷积得到4*4矩阵+b常数,由于python广播机制,4*4矩阵每个元素都加b,然后进行RELU函数转换,得到最终4*4矩阵。由于有两个滤波器,得到最终4*4*2矩阵。
前向传播:,其中a[0]即输入矩阵x;卷积相当于线性运算;+b后相当于z;经过RELU后相当于激活值a[1],这层完成了a[0] 6*6*3 -->a[1] 4*4*2变换。
eg:参数数量
(每个滤波器矩阵3*3*3+1个偏差b)*10=280,无论输入图像有多大,1000*1000*1000或者更大,这一层参数都是280个。这是卷积神经网络优点:防止过拟合
2.标记总结
在第L层:
上角标L表示第L层,滤波器通道数和输入矩阵通道数相同。
上角标L-1表示上一层激活值,这层输入即上层输出。输出矩阵的高、宽由公式可计算。
L层激活即L层输出,当采用批量梯度下降或小批量梯度下降时,有m个样本/激活,则,这里采用变量顺序是训练集个数、高、宽、通道数,有些文献中采样顺序,对变量顺序没有特殊要求,只需要全部一致即可。
权重即所以过滤器总数量,是L层中滤波器个数(损失数量即过滤器个数???);
偏差即一个常数,为方便表示写成