前提:
- 有一张32*32*3的RGB图片作为输入。
- 想做手写体数字识别,图片中含有某个数字,比如 7 。你想识别它是从0-9中的哪一个,我们构建一个神经网络来实现这个功能。
过程:
- 第一层使用卷积核大小为 5*5,步长为 1 ,padding是0,卷积核个数为6,那么输出为28*28*6。将这层标记为Conv1.它用了6个过滤器,增加了偏差,应用了非线性函数,可能是Relu非线性函数。
- 然后构建一个池化层,这里选用最大池化,参数 f = 2 ,s = 2 ,表示层的高度和宽度都会减少一半。因此,28*28变成了14*14,通道数量不变,所以最终输出结果为14*14*6,将该输出标记为Pool1。
- 我们把卷积层和池化层当做第一层layer1。
- 再构建一个卷积层,卷积核大小为 5*5 ,步幅为1,这次我们用16个卷积核,最后输出一个10*10*16的矩阵,标记为Conv2。
- 最后做最大池化,超参数f = 2, s = 2,高度和宽度减半,最后输出为5*5*16,标记为pool2
- 这两个是神经网络的第二层layer2。
- 5*5*16矩阵包含400个元素,现在将pool2平整化为一个大小为400的一维向量。我们可以把平整化结果想象成这样的一个神经元集合,然后利用这400个单元构建下一层。
- 下一层包含120个单元,这400个单元和这120个单元紧密相连。这就是我们的第一个