1.什么是卷积操作
卷积操作是从信号处理和图像处理领域引入的数学运算,主要用于提取数据的局部特征。在深度学习中,卷积操作主要用于卷积神经网络(CNN)中,以从图像或其他输入数据中提取特征。
输入数据通常是二维矩阵,比如一张灰度图像。这个矩阵中的每个元素代表图像的一个像素值。比如以下图片:
1 | 2 | 0 | 3 | 1 |
0 | 1 | 2 | 3 | 1 |
1 | 2 | 1 | 0 | 0 |
5 | 2 | 3 | 1 | 1 |
2 | 1 | 0 | 1 | 1 |
卷积核也是一个小的二维矩阵,它用来对输入数据进行滑动窗口操作。卷积核的大小通常比输入数据小得多,比如3x3、5x5等。
1 | 2 | 1 |
0 | 1 | 0 |
2 | 1 | 0 |
卷积操作通过将卷积核在输入数据上滑动(即移动),逐个位置地与输入数据进行点积运算,然后将结果求和,生成一个新的值。这个新的值会填入一个新的矩阵中,这个矩阵就是输出的特征图。比如以下就是卷积核的初始状态和第一步相乘
1*1 | 2*2 | 0*1 | 3 | 1 |
0*0 | 1*1 | 2*0 | 3 | 1 |
1*2 | 2*1 | 1*0 | 0 | 0 |
5 | 2 | 3 | 1 | 1 |
2 | 1 | 0 | 1 | 1 |
得到1*1 + 2*2 + 1*0 + 0*0 + 1*1 + 0*2 + 2*1 + 1*2 + 0*1 = 1 + 4 + 0 + 0 + 1 + 0 + 2 + 2 + 0 = 10,这就是特征图第一个值:
10 | ||
接下来,假设stride = 1,即步长等于1,此时卷积核对应在数据上就是
1 | 2 1 | 0 2 | 3 1 | 1 |
0 | 1 0 | 2 1 | 3 0 | 1 |
1 | 2 2 | 1 1 | 0 0 | 0 |
5 | 2 | 3 | 1 | 1 |
2 | 1 | 0 | 1 | 1 |
得到的结果为1*2 + 2*0 + 1*3 + 0*1 + 1*2 + 0*3 + 2*2 + 1*1 + 0*0 = 2 + 0 + 3 + 0 + 2 + 0 + 4 + 1 + 0 = 12,所以写入特征图
10 | 12 | |
以此类推,最后得到的最终特征图为
10 | 12 | 12 |
18 | 16 | 16 |
13 | 9 | 3 |
2.步长stride和填充Padding
步长stride决定了卷积核每次移动的像素数,通俗一点也就是移动的格子数。
填充Padding就是卷积核在下一个步长的时候,走到了数据的边缘,导致部分卷积核对应到了空。就像这种情况下:
1 | 2 | 0 | 3 1 | 1 2 |
0 | 1 | 2 | 3 0 | 1 1 |
1 | 2 | 1 | 0 2 | 0 1 |
5 | 2 | 3 | 1 | 1 |
2 | 1 | 0 | 1 | 1 |
最后一列的卷积核对应到了空,这个时候,Padding如果填充为1,也就是在整个数据周围铺一层0,就仍然可以进行乘法运算。得到的结果就是3*1 + 1*2 + 0*1 + 3*0 + 1*1 + 0*0 + 0*2 + 0*1 + 0*0 = 6。
3.代码实现
import torch
import torch.nn.functional as F # 这个子模块包含了各种神经网络操作的函数,比如卷积、激活函数等。
"""
nn.Conv1d/2d/3d就是卷积+维度的缩写命名的函数
torch.nn是torch.nn.functional封装后的API,更加方便使用,而且已经够用了
比如输入图像为
1,2,0,3,1
0,1,2,3,1
1,2,1,0,0
5,2,3,1,1
2,1,0,1,1
而卷积核[kernel]为
1,2,1
0,1,0
2,1,0
那么conv2d处理图像的时候就是将卷积核去覆盖输入图像,并将对应格子里的数字和输入图像里的数字相乘并全部相加。
比如卷积核从[0,0]开始
1*1 + 2*2 + 0*1 + 0*0 + 1*1 + 2*0 + 1*2 + 2*1 + 1*0 = 10
得到输出数字,卷积核就要开始移动了,如果向右移动一位,从[0,1]再开始,则stride = 1,即步长等于1
此时就是2*1 + 0*2 + 3*1 + 1*0 + 2*1 + 3*0 + 2*2 + 1*1 + 0 = 12
此时输出数组为
10,12
以此类推,走完第一行时,输出数组为
10,12,12
此时看stride,如果stride为default = 1,则表示横向1和纵向1;
所以下一步会来到[1,0]
此时是
0,1,2
1,2,1
5,2,3
与卷积核匹配
以此类推,最终得到输出数组为
10,12,12
18,16,16
13,9 ,3
而stride等于2的时候,只会移动到[0,0][0,2][2,0][2,2]四个位置
10,12
13,3
"""
# 首先创建一个二维矩阵类型的tensor,是[[],[],[]...]形式
input = torch.tensor([[1,2,0,3,1],
[0,1,2,3,1],
[1,2,1,0,0],
[5,2,3,1,1],
[2,1,0,1,1]])
# 输出input张量的形状,结果为torch.Size([5, 5]),表示这是一个5x5的矩阵。
print(input.shape)
# 3x3的卷积核kernel,用于在输入图像上进行卷积操作。
kernel = torch.tensor([[1,2,1],
[0,1,0],
[2,1,0]])
print(kernel.shape)
"""
conv2d函数要求输入张量的形状为(batch_size, channels, height, width)。而tensor目前只能提供h和w,所以需要reshape(tensor,(batch,channel,h,w))来更改
其中batch_size表示输入的批次大小(这里是1,表示单个图像),
channels表示通道数(这里是1,表示灰度图),
height和width分别表示图像的高度和宽度
因此,input被调整为(1, 1, 5, 5)的形状,表示一个批次中有一个通道的5x5图像。
同样地,kernel被调整为(1, 1, 3, 3)的形状。
"""
input = torch.reshape(input,(1,1,5,5))
kernel = torch.reshape(kernel,(1,1,3,3))
print(kernel.shape)
print(input.shape)
# 格式:conv2d(input tensor,kernel tensor,bias(偏值,暂时不设置),stride = 1,padding = 0)
output = F.conv2d(input , kernel , stride = 1)
print(output)
output_2 = F.conv2d(input , kernel , stride = 2)
print(output_2)
"""
padding会在输入数组的上下左右边缘扩建一行或一列一般全为0,但是这些0也会参与卷积核运算,用于充分利用边缘信息
比如padding为1时
0,0,0,0,0,0,0
0,1,2,0,3,1,0
0,0,1,2,3,1,0
0,1,2,1,0,0,0
0,5,2,3,1,1,0
0,2,1,0,1,1,0
0,0,0,0,0,0,0
"""
output_3 = F.conv2d(input , kernel , stride = 1 , padding = 1)
print(output_3)
这三个输出分别为
output(步长为1,无填充):
output_2(步长为2,无填充):
output_3(步长为1, 一层填充):