多通道图像卷积

小可同学呀

已于 2022-10-26 17:20:49 修改

阅读量343

点赞数

分类专栏：深度学习文章标签：计算机视觉

于 2020-09-05 16:03:50 首次发布

原文链接：https://blog.csdn.net/weixin_31866177/article/details/82985345

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

复制于：https://blog.csdn.net/weixin_31866177/article/details/82985345

1.对于单通道图像+单卷积核做卷积

Conv layers包含了conv，pooling，relu三种层。以python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构为例，如图2，Conv layers部分共有13个conv层，13个relu层，4个pooling层。这里有一个非常容易被忽略但是又无比重要的信息，在Conv layers中：

所有的conv层都是：kernel_size=3，pad=1
所有的pooling层都是：kernel_size=2，stride=2
为何重要？在Faster RCNN Conv layers中对所有的卷积都做了扩边处理（pad=1，即填充一圈0），导致原图变为(M+2)x(N+2)大小，再做3x3卷积后输出MxN。正是这种设置，导致Conv layers中的conv层不改变输入和输出矩阵大小。如图3：
在这里插入图片描述
类似的是，Conv layers中的pooling层kernel_size=2，stride=2。这样每个经过pooling层的MxN矩阵，都会变为(M/2)*(N/2)大小。综上所述，在整个Conv layers中，conv和relu层不改变输入输出大小，只有pooling层使输出长宽都变为输入的1/2。那么，一个MxN大小的矩阵经过Conv layers固定变为(M/16)x(N/16)！这样Conv layers生成的featuure map中都可以和原图对应起来。

2.对于多通道图像+多卷积核做卷积
在这里插入图片描述

如图5，输入图像layer m-1有4个通道，同时有2个卷积核w1和w2。对于卷积核w1，先在输入图像4个通道分别作卷积，再将4个通道结果加起来得到w1的卷积输出；卷积核w2类似。所以对于某个卷积层，无论输入图像有多少个通道，输出图像通道数总是等于卷积核数量！

对多通道图像做1x1卷积，其实就是将输入图像于每个通道乘以卷积系数后加在一起，即相当于把原图像中本来各个独立的通道“联通”在了一起。

caffe画图工具：http://ethereon.github.io/netscope/#/editor

小可同学呀

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多通道图像卷积

综上所述，在整个Conv layers中，conv和relu层不改变输入输出大小，只有pooling层使输出长宽都变为输入的1/2。以python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构为例，如图2，Conv layers部分共有13个conv层，13个relu层，4个pooling层。在Faster RCNN Conv layers中对所有的卷积都做了扩边处理（pad=1，即填充一圈0），导致原图变为(M+2)x(N+2)大小，再做3x3卷积后输出MxN。
复制链接

扫一扫

专栏目录