深入理解2D卷积和3D卷积

最新推荐文章于 2024-09-03 10:56:45 发布

如果你也听说~

最新推荐文章于 2024-09-03 10:56:45 发布

阅读量3.8k

点赞数 4

分类专栏：深度学习文章标签： 3d 计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_43456497/article/details/130713857

版权

文章目录

- 卷积核的维度
- 2D卷积
- 3D卷积

在项目中用到了conv3但是对其背后的原理还有一些模糊的地方，conv2d与多通道的conv2d的区别在哪里？conv3d的思想理论是什么？对此进行探究和记录…
首先要明确多通道的2d卷积和3d卷积是不一样的，3d是可以在通道中移动的，2d不可以

卷积核的维度

卷积核的维度指的的进行滑窗操作的维度，而滑窗操作不在channel维度上进行，不管有几个channel，它们都共享同一个滑窗位置（虽然2D多channel卷积的时候每个channel上的卷积核权重是独立的，但滑窗位置是共享的）。所以在讨论卷积核维度的时候，是不把channel维加进去的。

2D conv的卷积核就是 $c, k_h, k_w)$ ，因此，对于RGB图像做2D卷积，卷积核可以是conv2D(3,3) 而不该是conv3D(3,3,3)；

3D conv的卷积核就是 $c, k_d, k_h, k_w)$ ，其中k_d就是多出来的第三维，根据具体应用，在视频中就是时间维，在CT图像中就是层数维.

2D卷积

单通道

首先了解什么是卷积核，卷积核(filter)是由一组参数构成的张量，卷积核相当于权值，图像相当于输入量，卷积的操作就是根据卷积核对这些输入量进行加权求和。我们通常用卷积来提取图像的特征。

直观理解如下：下图使用的是 3x3卷积核(height x width,简写 $\times W$ )的卷积，padding为1(周围的虚线部分，卷积时为了使卷积后的图像大小与原来一致，会对原图像进行填充)，两个维度上的strides均为1(滑动步长，这里体现为每次滑动几个小方格)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3RueSX6s-1684241254644)(null)]
针对单通道，输入图像的channel为1，即输入大小为 $(1, h e i g h t, w e i g h t)$ ，卷积核尺寸为 $1, k_h, k_w)$ ，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗和 $k_h, k_w)$ 窗口内的values进行卷积操作（现在都用相关操作取代），得到输出图像中的一个value。

上图是通道数为1的2维图像的卷积操作，静态表示为：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P5WnZPSx-1684241254668)(null)]

多通道

了解了单通道图像的卷积之后，再来看多通道图像的卷积，我们知道灰度图像只有一个通道，而 RGB 图像有R、G、B三个通道。
多通道图像的一次卷积要对所有通道上同一位置的元素做加权和，因此卷积核的shape变成了 $\times W \times channels$ ，没有错卷积核变成了3维，但这不是3维卷积，因为我们区分几维卷积看的是卷积核可以在几个维度上的滑动，卷积核是不能在 channels上滑动的，因为上面提到每次卷积都要关联所有通道上同一位置上的元素。
3通道的卷积表示如下：是对每个通道进行2d卷积操作然后把最后的值相加的到右侧的小方块。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BsfaZIGY-1684241254677)(null)]
上图将3个通道分开表示，卷积核也分开表示，filter1、filter2、filter3均为二维卷积核，堆叠在一起便形成了 $\times W \times 3$ 的卷积核，同样的我们将3个通道也堆叠在一起;