conv2d与卷积操作

1.什么是卷积操作

        卷积操作是从信号处理和图像处理领域引入的数学运算,主要用于提取数据的局部特征。在深度学习中,卷积操作主要用于卷积神经网络(CNN)中,以从图像或其他输入数据中提取特征。

        输入数据通常是二维矩阵,比如一张灰度图像。这个矩阵中的每个元素代表图像的一个像素值。比如以下图片:

12031
01231
12100
52311
21011

        卷积核也是一个小的二维矩阵,它用来对输入数据进行滑动窗口操作。卷积核的大小通常比输入数据小得多,比如3x3、5x5等。

121
010
210

        卷积操作通过将卷积核在输入数据上滑动(即移动),逐个位置地与输入数据进行点积运算,然后将结果求和,生成一个新的值。这个新的值会填入一个新的矩阵中,这个矩阵就是输出的特征图。比如以下就是卷积核的初始状态和第一步相乘

        

1*12*20*131
0*01*12*031
1*22*11*000
52311
21011

        得到1*1 + 2*2 + 1*0 + 0*0 + 1*1 + 0*2 + 2*1 + 1*2 + 0*1 = 1 + 4 + 0 + 0 + 1 + 0 + 2 + 2 + 0 = 10,这就是特征图第一个值:

特征图
10

        接下来,假设stride = 1,即步长等于1,此时卷积核对应在数据上就是

12 10 23 11
01 02 13 01
12 21 10 00
52311
21011

        得到的结果为1*2 + 2*0 + 1*3 + 0*1 + 1*2 + 0*3 + 2*2 + 1*1 + 0*0 = 2 + 0 + 3 + 0 + 2 + 0 + 4 + 1 + 0 = 12,所以写入特征图

        

特征图
1012

以此类推,最后得到的最终特征图为

        

特征图
101212
181616
1393

2.步长stride和填充Padding

        步长stride决定了卷积核每次移动的像素数,通俗一点也就是移动的格子数。

        填充Padding就是卷积核在下一个步长的时候,走到了数据的边缘,导致部分卷积核对应到了空。就像这种情况下:

1203 11 2
0123 01 1
1210 20 1
52311
21011

        最后一列的卷积核对应到了空,这个时候,Padding如果填充为1,也就是在整个数据周围铺一层0,就仍然可以进行乘法运算。得到的结果就是3*1 + 1*2 + 0*1 + 3*0 + 1*1 + 0*0 + 0*2 + 0*1 + 0*0 = 6。

3.代码实现

import torch
import torch.nn.functional as F    # 这个子模块包含了各种神经网络操作的函数,比如卷积、激活函数等。

"""
nn.Conv1d/2d/3d就是卷积+维度的缩写命名的函数
torch.nn是torch.nn.functional封装后的API,更加方便使用,而且已经够用了
比如输入图像为
1,2,0,3,1
0,1,2,3,1
1,2,1,0,0
5,2,3,1,1
2,1,0,1,1
而卷积核[kernel]为
1,2,1
0,1,0
2,1,0
那么conv2d处理图像的时候就是将卷积核去覆盖输入图像,并将对应格子里的数字和输入图像里的数字相乘并全部相加。
比如卷积核从[0,0]开始
1*1 + 2*2 + 0*1 + 0*0 + 1*1 + 2*0 + 1*2 + 2*1 + 1*0 = 10
得到输出数字,卷积核就要开始移动了,如果向右移动一位,从[0,1]再开始,则stride = 1,即步长等于1
此时就是2*1 + 0*2 + 3*1 + 1*0 + 2*1 + 3*0 + 2*2 + 1*1 + 0 = 12
此时输出数组为
10,12
以此类推,走完第一行时,输出数组为
10,12,12
此时看stride,如果stride为default = 1,则表示横向1和纵向1;
所以下一步会来到[1,0]
此时是
0,1,2
1,2,1
5,2,3
与卷积核匹配
以此类推,最终得到输出数组为
10,12,12
18,16,16
13,9 ,3
而stride等于2的时候,只会移动到[0,0][0,2][2,0][2,2]四个位置
10,12
13,3
"""

# 首先创建一个二维矩阵类型的tensor,是[[],[],[]...]形式
input = torch.tensor([[1,2,0,3,1],
                     [0,1,2,3,1],
                     [1,2,1,0,0],
                     [5,2,3,1,1],
                     [2,1,0,1,1]])

# 输出input张量的形状,结果为torch.Size([5, 5]),表示这是一个5x5的矩阵。
print(input.shape)

# 3x3的卷积核kernel,用于在输入图像上进行卷积操作。
kernel = torch.tensor([[1,2,1],
                      [0,1,0],
                      [2,1,0]])
print(kernel.shape)

"""
conv2d函数要求输入张量的形状为(batch_size, channels, height, width)。而tensor目前只能提供h和w,所以需要reshape(tensor,(batch,channel,h,w))来更改
其中batch_size表示输入的批次大小(这里是1,表示单个图像),
channels表示通道数(这里是1,表示灰度图),
height和width分别表示图像的高度和宽度
因此,input被调整为(1, 1, 5, 5)的形状,表示一个批次中有一个通道的5x5图像。
同样地,kernel被调整为(1, 1, 3, 3)的形状。
"""
input = torch.reshape(input,(1,1,5,5))
kernel = torch.reshape(kernel,(1,1,3,3))
print(kernel.shape)
print(input.shape)

# 格式:conv2d(input tensor,kernel tensor,bias(偏值,暂时不设置),stride = 1,padding = 0)
output = F.conv2d(input , kernel , stride = 1)
print(output)

output_2 = F.conv2d(input , kernel , stride = 2)
print(output_2)

"""
padding会在输入数组的上下左右边缘扩建一行或一列一般全为0,但是这些0也会参与卷积核运算,用于充分利用边缘信息
比如padding为1时
0,0,0,0,0,0,0
0,1,2,0,3,1,0
0,0,1,2,3,1,0
0,1,2,1,0,0,0
0,5,2,3,1,1,0
0,2,1,0,1,1,0
0,0,0,0,0,0,0
"""

output_3 = F.conv2d(input , kernel , stride = 1 , padding = 1)
print(output_3)

        这三个输出分别为

        output(步长为1,无填充):

        output_2(步长为2,无填充):

        output_3(步长为1, 一层填充):

  • 20
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值