conv2d与卷积操作

最新推荐文章于 2024-08-18 23:49:35 发布

ZilliaxBergling

最新推荐文章于 2024-08-18 23:49:35 发布

阅读量795

点赞数 20

分类专栏： Pytorch 文章标签：深度学习人工智能 pytorch

本文链接：https://blog.csdn.net/RaltBergling/article/details/141051361

版权

Pytorch 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.什么是卷积操作

卷积操作是从信号处理和图像处理领域引入的数学运算，主要用于提取数据的局部特征。在深度学习中，卷积操作主要用于卷积神经网络（CNN）中，以从图像或其他输入数据中提取特征。

输入数据通常是二维矩阵，比如一张灰度图像。这个矩阵中的每个元素代表图像的一个像素值。比如以下图片：

1	2	0	3	1
0	1	2	3	1
1	2	1	0	0
5	2	3	1	1
2	1	0	1	1

卷积核也是一个小的二维矩阵，它用来对输入数据进行滑动窗口操作。卷积核的大小通常比输入数据小得多，比如3x3、5x5等。

1	2	1
0	1	0
2	1	0

卷积操作通过将卷积核在输入数据上滑动（即移动），逐个位置地与输入数据进行点积运算，然后将结果求和，生成一个新的值。这个新的值会填入一个新的矩阵中，这个矩阵就是输出的特征图。比如以下就是卷积核的初始状态和第一步相乘

1*1	2*2	0*1	3	1
0*0	1*1	2*0	3	1
1*2	2*1	1*0	0	0
5	2	3	1	1
2	1	0	1	1

得到1*1 + 2*2 + 1*0 + 0*0 + 1*1 + 0*2 + 2*1 + 1*2 + 0*1 = 1 + 4 + 0 + 0 + 1 + 0 + 2 + 2 + 0 = 10，这就是特征图第一个值：

特征图
10

接下来，假设stride = 1，即步长等于1，此时卷积核对应在数据上就是

1	2 1	0 2	3 1	1
0	1 0	2 1	3 0	1
1	2 2	1 1	0 0	0
5	2	3	1	1
2	1	0	1	1

得到的结果为1*2 + 2*0 + 1*3 + 0*1 + 1*2 + 0*3 + 2*2 + 1*1 + 0*0 = 2 + 0 + 3 + 0 + 2 + 0 + 4 + 1 + 0 = 12，所以写入特征图

特征图
10	12

以此类推，最后得到的最终特征图为

特征图
10	12	12
18	16	16
13	9	3

2.步长stride和填充Padding

步长stride决定了卷积核每次移动的像素数，通俗一点也就是移动的格子数。

填充Padding就是卷积核在下一个步长的时候，走到了数据的边缘，导致部分卷积核对应到了空。就像这种情况下：

1	2	0	3 1	1 2
0	1	2	3 0	1 1
1	2	1	0 2	0 1
5	2	3	1	1
2	1	0	1	1

最后一列的卷积核对应到了空，这个时候，Padding如果填充为1，也就是在整个数据周围铺一层0，就仍然可以进行乘法运算。得到的结果就是3*1 + 1*2 + 0*1 + 3*0 + 1*1 + 0*0 + 0*2 + 0*1 + 0*0 = 6。

3.代码实现

import torch
import torch.nn.functional as F    # 这个子模块包含了各种神经网络操作的函数，比如卷积、激活函数等。

"""
nn.Conv1d/2d/3d就是卷积+维度的缩写命名的函数
torch.nn是torch.nn.functional封装后的API,更加方便使用，而且已经够用了
比如输入图像为
1，2，0，3，1
0，1，2，3，1
1，2，1，0，0
5，2，3，1，1
2，1，0，1，1
而卷积核[kernel]为
1，2，1
0，1，0
2，1，0
那么conv2d处理图像的时候就是将卷积核去覆盖输入图像，并将对应格子里的数字和输入图像里的数字相乘并全部相加。
比如卷积核从[0,0]开始
1*1 + 2*2 + 0*1 + 0*0 + 1*1 + 2*0 + 1*2 + 2*1 + 1*0 = 10
得到输出数字，卷积核就要开始移动了，如果向右移动一位，从[0,1]再开始，则stride = 1，即步长等于1
此时就是2*1 + 0*2 + 3*1 + 1*0 + 2*1 + 3*0 + 2*2 + 1*1 + 0 = 12
此时输出数组为
10，12
以此类推，走完第一行时，输出数组为
10，12，12
此时看stride,如果stride为default = 1,则表示横向1和纵向1；
所以下一步会来到[1,0]
此时是
0，1，2
1，2，1
5，2，3
与卷积核匹配
以此类推，最终得到输出数组为
10，12，12
18，16，16
13，9 ，3
而stride等于2的时候，只会移动到[0,0][0,2][2,0][2,2]四个位置
10,12
13,3
"""

# 首先创建一个二维矩阵类型的tensor,是[[],[],[]...]形式
input = torch.tensor([[1,2,0,3,1],
                     [0,1,2,3,1],
                     [1,2,1,0,0],
                     [5,2,3,1,1],
                     [2,1,0,1,1]])

# 输出input张量的形状，结果为torch.Size([5, 5])，表示这是一个5x5的矩阵。
print(input.shape)

# 3x3的卷积核kernel，用于在输入图像上进行卷积操作。
kernel = torch.tensor([[1,2,1],
                      [0,1,0],
                      [2,1,0]])
print(kernel.shape)

"""
conv2d函数要求输入张量的形状为(batch_size, channels, height, width)。而tensor目前只能提供h和w,所以需要reshape(tensor,(batch,channel,h,w))来更改
其中batch_size表示输入的批次大小（这里是1，表示单个图像），
channels表示通道数（这里是1，表示灰度图），
height和width分别表示图像的高度和宽度
因此，input被调整为(1, 1, 5, 5)的形状，表示一个批次中有一个通道的5x5图像。
同样地，kernel被调整为(1, 1, 3, 3)的形状。
"""
input = torch.reshape(input,(1,1,5,5))
kernel = torch.reshape(kernel,(1,1,3,3))
print(kernel.shape)
print(input.shape)

# 格式：conv2d(input tensor,kernel tensor,bias(偏值，暂时不设置),stride = 1,padding = 0)
output = F.conv2d(input , kernel , stride = 1)
print(output)

output_2 = F.conv2d(input , kernel , stride = 2)
print(output_2)

"""
padding会在输入数组的上下左右边缘扩建一行或一列一般全为0,但是这些0也会参与卷积核运算，用于充分利用边缘信息
比如padding为1时
0，0，0，0，0，0，0
0，1，2，0，3，1，0
0，0，1，2，3，1，0
0，1，2，1，0，0，0
0，5，2，3，1，1，0
0，2，1，0，1，1，0
0，0，0，0，0，0，0
"""

output_3 = F.conv2d(input , kernel , stride = 1 , padding = 1)
print(output_3)

这三个输出分别为

output(步长为1，无填充)：

output_2(步长为2，无填充)：

output_3(步长为1，一层填充)：

ZilliaxBergling

关注

20
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
conv2d与卷积操作

卷积操作是从信号处理和图像处理领域引入的数学运算，主要用于提取数据的局部特征。在深度学习中，卷积操作主要用于卷积神经网络（CNN）中，以从图像或其他输入数据中提取特征。通常是二维矩阵，比如一张灰度图像。这个矩阵中的每个元素代表图像的一个像素值。也是一个小的二维矩阵，它用来对输入数据进行滑动窗口操作。卷积核的大小通常比输入数据小得多，比如3x3、5x5等。卷积操作通过将卷积核在输入数据上滑动（即移动），逐个位置地与输入数据进行点积运算，然后将结果求和，生成一个新的值。
复制链接

扫一扫