卷积神经网络的卷积过程

最新推荐文章于 2024-08-08 16:38:06 发布

qq_35975753

最新推荐文章于 2024-08-08 16:38:06 发布

阅读量1.7k

点赞数 1

原文链接：https://blog.csdn.net/weixin_38410551/article/details/103993327

版权

卷积核，以及卷积核channel数的理解

每一个卷积核的大小，为长宽，深度。长，宽自定义，卷积核输入通道数由上一层卷积核的个数或者输入图片的channel数决定。例如：如果上一层就是输入，输入为灰度图像，卷积核的输入通道数为1。输入为rgb图像，卷积核的深度为3。如果上一层为卷积层，卷积核的个数，即channel数。
注：（1）经过一个卷积核的输出，必然为一个特征图。

（2）卷积核的深度只和上一层的channel数相关，卷积核的深度就等于上一层的channel数
（3）卷积核的个数，卷积核的channel数，是同一个概念，卷积核的个数，也就是滤波器的个数，就等于下一层的channel（通道）数。
（3）当卷积核的大小大于1，步进为1时，不会改变输入的分辨率，即最终输入的分辨率和卷积核输出特征图的分辨率相同。
（4）每个卷积核只有一个偏置，卷积核对上一层每个特征图分别进行卷积，然后卷积完成以后进行累加，然后添加偏置，形成一个特征图。
（5）当下一层为BN层时，当前层卷积核的偏置可以不用设置。
（6）卷积层的参数，不仅与当前层的通道数有关，也与输入层的通道数有关，权值共享只限于单独的通道，不同的通道无法进行权值共享。举例如下：
卷积核的大小一般有1x1,3x3和5x5的尺寸（一般是奇数x奇数）。卷积核的个数就对应输出的通道数（channels），这里需要说明的是对于输入的每个通道，输出每个通道上的卷积核是不一样的。比如输入是28x28x192(WxDxK,K代表通道数)，然后在3x3的卷积核，卷积通道数为128，那么卷积的参数有3x3x192x128，其中前两个对应的每个卷积里面的参数，后两个对应的卷积总的个数（一般理解为，卷积核的权值共享只在每个单独通道上有效，至于通道与通道间的对应的卷积核是独立不共享的，所以这里是192x128）。

以下附出一张卷积的图表示卷积过程：

图上所示输入为一张5*5*3的图片，不过padding为1，也就是7*7*3的feture map，经过两个卷积核进行卷积操作，卷积核的维度为3（高）*3（宽）*3（维度），最终会得到3(高)*3（宽）*2（通道）的feature map。

（一般理解为，卷积核的权值共享只在每个单独通道上有效，至于通道与通道间的对应的卷积核是独立不共享的，所以这里是192x128）从上面可以看出，每一个7*7的feature map，只在当前通道上卷积核的权值是共享的，在不同的通道与通道间的对应的卷积核是独立不共享的。

对于滤波器（卷积核），4个维度分别是高度、宽度、输入通道（深度或者称之为维度）和输出通道。输入通道与输入张量相同；输出通道收集多个滤波器，每个滤波器可以不同。

代码如下所示：

input=torch.tensor([[[[1,2,1,1],
[0,-1,0,0],
[0,0,0,0],
[0,0,0,0]],[[1,1,1,1],
[0,0,0,0],
[0,0,0,0],
[0,0,0,0]],[[1,1,1,1],
[0,0,0,0],
[0,0,0,0],
[0,0,0,0]]]])

weight=torch.tensor([[[[1,1],
[0,0]],
[[1,0],
[0,0]], [[0,0],
[0,0]]]])

input:输入一张1*3*4*4的图片，3表示channel数，4*4表示feature map 的大小，

weight表示输入一个卷积核1*3*2*2，卷积核的深度为3，大小为2*2，

output = F.conv2d(input, weight=weight, padding=0, stride=1)

output的结果为tensor([[[[ 4, 4, 3],
[-1, -1, 0],
[ 0, 0, 0]]]])