在卷积层块中,每个卷积核的 stride 均为 1,padding 均为 0。第一个卷积层输出通道数为 6,第二个卷积层输出通道数则增加到 16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小,所以增加输出通道使两个卷积层的参数尺寸类似;卷积层块的两个最大池化层的窗口形状均为
2
×
2
2×2
2×2 ,且步幅为 2
C
o
n
v
(
6
,
I
n
p
u
t
_
c
h
a
n
n
e
l
,
5
,
5
)
→
M
a
x
P
o
o
l
(
2
,
2
)
→
C
o
n
v
(
16
,
6
,
5
,
5
)
→
M
a
x
P
o
o
l
(
2
,
2
)
\begin{aligned} Conv(6, Input\_channel, 5, 5) \rightarrow MaxPool(2, 2) \rightarrow Conv(16, 6, 5, 5)\\ \rightarrow MaxPool(2, 2) \end{aligned}
Conv(6,Input_channel,5,5)→MaxPool(2,2)→Conv(16,6,5,5)→MaxPool(2,2)
AlexNet 第一层中的卷积窗口形状是
11
×
11
11×11
11×11 。因为 ImageNet 中绝大多数图像的高和宽均比 MNIST 图像的高和宽大 10 倍以上,ImageNet 图像的物体占用更多的像素,所以需要更大的卷积窗口来捕获物体。 同时使用步幅 4来较大幅度减小输出高和宽。而且相比于 LeNet,输出的通道数也要大很多
C
o
n
v
(
96
,
I
n
p
u
t
_
c
h
a
n
n
e
l
,
11
,
11
)
,
s
=
4
→
M
a
x
P
o
o
l
(
3
,
3
)
,
s
=
2
\begin{aligned} Conv(96, Input\_channel, 11, 11),s=4 \rightarrow MaxPool(3, 3),s=2 \end{aligned}
Conv(96,Input_channel,11,11),s=4→MaxPool(3,3),s=2
第二层中的卷积窗口形状减小到
5
×
5
5×5
5×5
→
C
o
n
v
(
256
,
96
,
5
,
5
)
,
p
=
2
→
M
a
x
P
o
o
l
(
3
,
3
)
,
s
=
2
\begin{aligned} \rightarrow Conv(256, 96, 5, 5),p=2 \rightarrow MaxPool(3, 3),s=2 \end{aligned}
→Conv(256,96,5,5),p=2→MaxPool(3,3),s=2
之后的卷积核都采用
3
×
3
3×3
3×3
→
C
o
n
v
(
384
,
256
,
3
,
3
)
,
p
=
1
\begin{aligned} \rightarrow Conv(384, 256, 3, 3),p=1 \end{aligned}
→Conv(384,256,3,3),p=1
→
C
o
n
v
(
384
,
384
,
3
,
3
)
,
p
=
1
\begin{aligned} \rightarrow Conv(384, 384, 3, 3),p=1 \end{aligned}
→Conv(384,384,3,3),p=1
→
C
o
n
v
(
256
,
384
,
3
,
3
)
,
p
=
1
→
M
a
x
P
o
o
l
(
3
,
3
)
,
s
=
2
\begin{aligned} \rightarrow Conv(256, 384, 3, 3),p=1 \rightarrow MaxPool(3, 3),s=2 \end{aligned}
→Conv(256,384,3,3),p=1→MaxPool(3,3),s=2
本文参考:《DIVE INTO DEEP LEARNING》目录LeNetAlexNetLeNetLeNet是进行手写数字识别的网络LeNet分为卷积层块和全连接层块两个部分,激活函数都使用sigmoid。在卷积层块中,每个卷积核的stride均为1,padding均为0。第一个卷积层输出通道数为6,第二个卷积层输出通道数则增加到16。这是因为第二个卷积层比第一个卷积层的输入的高和宽要小,所以增加输出通道使两个卷积层的参数尺寸类似。卷积层块的两个最大池化层的窗口形状均为 2×22×22×2 ,