卷积到底是如何操作的？1x1卷积？参数如何计算？

最新推荐文章于 2025-03-03 18:34:05 发布

ukuu

最新推荐文章于 2025-03-03 18:34:05 发布

阅读量7.1k

点赞数 18

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/Tomxiaodai/article/details/81835238

版权

计算机视觉专栏收录该内容

18 篇文章

订阅专栏

卷积到底是如何操作的

1. 对于一个特征图（如灰度图）

卷积就是对应元素乘积的求和,然后在加上一个非线性函数。

但是上面的例子只有一个输入channel和一个卷积核，当有很多channel和多个卷积核时，又改如何计算呢？

2. 多个特征图如何和多个filter进行运算呢？

先来看动图，这里有三个输入维度，两个卷积核，最后输出的是两个特征图。

Remember：一个filter就是一个特征，一般会有多个卷积核（也就是多个channel），所以，一个filter更多的时候是一个长方体，而不是一个平面，为什么会这样呢？

因为，并不是每个特征图和每个卷积核去匹配的，而是所有的输入channel同时和一个filter做运算，也就是多个卷积核的对应元素乘积的求和。因此对于一个filter，它应该具有和原图相同的channel 。如原图是3通道的，那么filter也应该是3通道。当然filter的channel的参数不需要人为设置，因为它就是输入层的channel数，但计算时需要考虑。

单个filter -- 含有多个特征图（可看做彩色图片的三个通道）

上图看起来有三个filter，其实就是一个一个含有三个channel的filter

多个filter

上图中有两个 filter，也就是两个特征，每个含有三个channel，所以最后会输出两个特征图。

filter的参数如何计算

以VGG16的 block1_conv1为例，卷积核是3x3(大家肯定都知道），filter的个数是64，也就是说会输出64个特征图。filter的输入维度是3，因此参数的个数应该是 (3x3x3+1)x64 = 1792

前面3x3表示一个channel的参数数目，后面的3指的是输入层的channel，加1表示每个filter含有偏置

再举个例子：请看block2_conv1 它的参数应该是（3x3x64+1）x128 = 73856

In [2]:
from keras.applications.vgg16 import VGG16

In [4]:
model = VGG16()
In [5]:

model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 224, 224, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0         
_________________________________________________________________
block3_conv1 (Conv2D)        (None, 56, 56, 256)       295168    
_________________________________________________________________
block3_conv2 (Conv2D)        (None, 56, 56, 256)       590080    
_________________________________________________________________
block3_conv3 (Conv2D)        (None, 56, 56, 256)       590080    
_________________________________________________________________
block3_pool (MaxPooling2D)   (None, 28, 28, 256)       0         
_________________________________________________________________
block4_conv1 (Conv2D)        (None, 28, 28, 512)       1180160   
_________________________________________________________________
block4_conv2 (Conv2D)        (None, 28, 28, 512)       2359808   
_________________________________________________________________
block4_conv3 (Conv2D)        (None, 28, 28, 512)       2359808   
_________________________________________________________________
block4_pool (MaxPooling2D)   (None, 14, 14, 512)       0         
_________________________________________________________________
block5_conv1 (Conv2D)        (None, 14, 14, 512)       2359808   
_________________________________________________________________
block5_conv2 (Conv2D)        (None, 14, 14, 512)       2359808   
_________________________________________________________________
block5_conv3 (Conv2D)        (None, 14, 14, 512)       2359808   
_________________________________________________________________
block5_pool (MaxPooling2D)   (None, 7, 7, 512)         0         
_________________________________________________________________
flatten (Flatten)            (None, 25088)             0         
_________________________________________________________________
fc1 (Dense)                  (None, 4096)              102764544 
_________________________________________________________________
fc2 (Dense)                  (None, 4096)              16781312  
_________________________________________________________________
predictions (Dense)          (None, 1000)              4097000   
=================================================================
Total params: 138,357,544
Trainable params: 138,357,544
Non-trainable params: 0
_________________________________________________________________