问题:一直不理解一张彩色3通道的图片,经过一个32层的3×3卷积核后,得到的是32通道的输出,如YOLOv3的第一层卷积层:
即输入为416×416*3的feature map,经过3×3×32的filer,输出为416×416×32的feature map。
一开始觉得,输入图片的每个通道都经过3×3×32的卷积后都会得到32通道的输出;那么,3通道都经过3×3×32的卷积后就会得到96通道的总输出。但是,结果是输出32通道的输出,即输出的通道数由filter的数量来决定。
那么,3通道的输入经过32层的卷积后是如何得到32通道的输出。该步骤如下:
- 3×3×32的filter是指32个卷积核,每个卷积核的尺寸为3×3,但其深度为C_in(输入的通道数,如例子中的3),那么每个卷积核的大小为3×3×C_in,每个卷积核与输入进行卷积操作,得到C_in个输出;
- 把卷积后的C_in个输出进行相加,便得到单通道输出;
- 剩余层的卷积核循环进行上述操作即可。