三维巻积的理解：

lmx001206

已于 2022-04-08 10:13:59 修改

阅读量3.4k

点赞数

文章标签：人工智能深度学习 python pytorch

于 2022-04-05 11:20:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lmx001206/article/details/123964838

版权

在学习卷积神经网时候，本人对代码中的卷积维度变化不是很理解，记录学习过程供参考。

另外，巻积核的参数输入通道数，即输入数据的通道数，输出通道数也就是巻积核个数，尺寸一般奇数 1x1 3x3 一般有pad输出前后大小不变。

假设有一个卷积核W（3X3X3X2），第一个维度为高度，第二个维度为宽度，第三个维度为通道数，第四个维度为卷积层数。上图展示一下：
在这里插入图片描述

关于卷积过程中维度的变化：

三维的巻积核对图像操作，得到的还是二维平面，如果处理的图是三维的

对于单通道的灰度图卷积很好理解，如4X4的图片用3X3的一个卷积核进行卷积（步长为一），那结果就是2X2的维度；假设卷积核有2层，即为3X3X2，那么卷积出来的结果就是2X2X2。结果的维度就相当于拿卷积核这个“面”在图像里平移，看有多少个这样的“面”。

对于多通道而言，借用上面思维来理解就清晰了，如6X6X3的RGB图片，用3X3X3的卷积核来卷积（同样步长为一），就相当于拿一个3X3X3的正方体（卷积核）在6X6X3的长方体里平移（原图像），得出的结果就是二维的4X4，因为卷积核只需要在图片的第一和第二维平移，第三维度相等无需移动。此时如果卷积核层数为2，即3X3X3X2，那么结果就相当于有两层4X4的结果，即4X4X2。以此类推。
借用网上的图帮助理解：
在这里插入图片描述

BatchNorm：

随机选取了Batch进行Normalization，为了防止过拟合而使用。3d操作就算将4维数据组成的5维操作，但是数据的维度是不变化的，因为没有像巻积操作嘛

dilated convolution

空洞巻积，即膨胀巻积，它的感受野可以设置的比普通巻积大，代码实例如下，即dilation的不同，如果设置为1就是普通巻积

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

attention：

计算出了attention map然后再和这个特征相乘，就是经过attention处理的特征

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
三维巻积的理解：

在学习卷积神经网时候，本人对代码中的卷积维度变化不是很理解，记录学习过程供参考。假设有一个卷积核W（3X3X3X2），第一个维度为高度，第二个维度为宽度，第三个维度为通道数，第四个维度为卷积层数。上图展示一下：在这里插入图片描述关于卷积过程中维度的变化：三维的巻积核对图像操作，得到的还是二维平面，如果处理的图是三维的对于单通道的灰度图卷积很好理解，如4X4的图片用3X3的一个卷积核进行卷积（步长为一），那结果就是2X2的维度；假设卷积核有2层，即为3X3X2，那么卷积出来的结果就.
复制链接

扫一扫

lmx001206 CSDN认证博客专家 CSDN认证企业博客

码龄4年

39: 原创

40万+: 周排名

126万+: 总排名

3万+: 访问

: 等级

422: 积分

8: 粉丝

9: 获赞

11: 评论

48: 收藏

私信

关注

热门文章

最新评论

parse_args的使用:
用户628777: 所以怎么办呢，RuntimeError: stack expects a non-empty TensorList我也是遇到了这个问题。
提升cv的工程即代码能力
努力成为算法工程师: 有没有好一点的baseline 代码？推荐一下谢谢，我是做视频超分辨率的。其他视觉方向的代码也行，谢谢
深度学习数据加载过程：
Krovsiki: 老师可以描述一下arbsr那个训练集要怎么处理吗？就是DIY2k那个
Meta-sr 复现的环境配置问题：
飞羽、屋: 请问传参部分报错怎么修改
cvday16（做到这个程度就好）
lmx001206: 重新更正下，怎么讲。训练一个超分网络，他们用的训练数据集都是分辨率比较低的那种数据集就不会那么大。即640x256下采样到160x64这样再一起输入，对比获取lr-hr的特征关系。所以其实同样的这里分辨率就是提高了4倍，即我们输入1k变4k但是这时候要看你的cuda能不能承受得住，即cpu内存够不够你一次性输入很多图片，像我做的这个640-2k就是每次输入50张照片来还原，但是合成的视频总是抖动很大。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。