对于pytorch框架而言,给出了三种卷积方式,分别是:
Conv1d、Conv2d、Conv3d
本文对于前两种卷积方式,进行探究,第三种依次类推
0.最基本的卷积模式理解
假设蓝色是被卷积的矩阵,橙色是卷积核,那么沿着横向核纵向的卷积移动过程就如下所示
1.Conv1d
一维的卷积,意思就是卷积核不像上面那样,它只会沿着一个方向移动卷积核,那么问题就来了:以3×3的数据为例子,进行一维的卷积过程是怎么样的呢?
(1) 对于一维卷积的卷积核,本质上是一个二维的小矩阵,这个矩阵大小如果表示为w×h的话,其特点是有一个维度是固定了大小的,假如是w被固定了,w具体大小要与被卷积数据的w一致,剩下的h就是需要我们进行设定的维度。
上图展示了设定卷积核尺寸为2的情况,卷积核的大小就会变成2*3的形状,随后沿着纵向进行卷积
(2)接下来就是代码层面的验证上面的原理了。
首先呢,我们定义一下测试数据以及卷积层:
import torch
import torch.nn as nn
data = torch.arange(0, 60, dtype=torch.float32).reshape(3, 4, 5)
con1 = nn.Conv1d(in_channels=4, out_channels=6, kernel_size=3)
下一步,我们查看卷积层参数的形状:参数分为2部分:
权重是[6, 4, 3],表示有6个卷积核,每个的形状是[4, 3]
偏置是6个,对应6个卷积核
for e in con1.parameters():
print(e.shape)
"""
Weight: torch.Size([6, 4, 3])
Bias: torch.Size([6])
"""
下一步就是传入卷积层得到输出结果:
out = con1(data1)
print(out)
"""
tensor([[[ 9.5418e+00, 1.0264e+01, 1.0987e+01],
[ 5.0055e+00, 5.5690e+00, 6.1324e+00],
[ 5.8434e+00, 6.7361e+00, 7.6287e+00],
[ 2.2538e-02, -3.9881e-01, -8.2016e-01],
[ 2.7357e+00, 3.1719e+00, 3.6082e+00],
[ 6.3507e+00, 6.5536e+00, 6.7565e+00]],
.............
[[ 3.8442e+01, 3.9164e+01, 3.9887e+01],
[ 2.7543e+01, 2.8106e+01, 2.8670e+01],
[ 4.1550e+01, 4.2443e+01, 4.3335e+01],
[-1.6831e+01, -1.7253e+01, -1.7674e+01],
[ 2.0186e+01, 2.0622e+01, 2.1059e+01],
[ 1.4465e+01, 1.4668e+01, 1.4871e+01]]], grad_fn=<SqueezeBackward1>)
"""
随后我们来验证一下我们的原理,数据是3*4*5的尺寸,表示有3个4*5的二维数组,现在用第一个卷积核对它进行卷积:
res = con1.weight[0].mul(data1[0, :, 0:3]).sum() + con1.bias[0]
print(res)
"""
tensor(9.5418, grad_fn=<AddBackward0>)
"""
可以看到结果正是先前out结果的第一个值。
2.Conv2d
2d的卷积层就顺理成章的可以理解了,它就是使用3维的卷积核进行卷积,但是也有一个维度的尺寸大小是锁定大小的,假设输入的是10张3通道的256×256RGB图像,那么数据的形状就是: [10, 3, 256, 256]
(1)对于三维的卷积核,其关于通道维度的大小是锁定与图像的3通道数一致,因此需要设定的是沿着横向和纵向的尺寸,例如一个卷积核的大小可以为:[3, w, h],具体的w和h细节就再此不过多考虑。下图会演示卷积过程:数据为1*3*4*5,卷积核为3*3*3
上图左右分别是数据与卷积核,垂直屏幕方向是通道维度。第一次卷积的位置如下所示
可以看出卷积核还可以沿着横向和纵向方向移动
(2)接下来是代码层面进行验证原理
con2 = nn.Conv2d(in_channels=3, out_channels=6, kernel_size=3)
data2 = torch.rand(10, 3, 4, 5, dtype=torch.float32)
out = con2(data2)
print(out[0,0,0,0].detach().numpy())
res = data2[0, :, 0:3, 0:3].mul(con2.weight[0]).sum() + con2.bias[0]
print(res.detach().numpy())
"""
0.24863902
0.248639
"""