多通道彩色图象的卷积过程详解

最新推荐文章于 2024-06-25 15:03:53 发布

秋名山庄李逍遥

最新推荐文章于 2024-06-25 15:03:53 发布

阅读量2.3k

点赞数 1

文章标签：深度可分离卷积 mobilenet

转载自：https://blog.csdn.net/oMoDao1/article/details/83545144

最近一直在看mobilenet 中的深度可分离卷积结构，所以先理解下多通道图像的卷积过程。

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几个参数：
　　a. 深度depth：神经元个数，决定输出的depth厚度。同时代表滤波器个数。
　　b. 步长stride：决定滑动多少步可以到边缘。

　　c. 填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除。

这里写图片描述

可以借助一幅经典的GIF图来理解，先放这里了。

可以看到：

两个神经元，即depth=2，意味着有两个滤波器。
数据窗口每次移动两个步长取3*3的局部数据，即stride=2。
zero-padding=1。

然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果。

如果初看上图，可能不一定能立马理解啥意思，但结合上文的内容后，理解这个动图已经不是很困难的事情：

左边是输入（7*7*3中，7*7代表图像的像素/长宽，3代表R、G、B 三个颜色通道）
中间部分是两个不同的滤波器Filter w0、Filter w1
最右边则是两个不同的输出

随着左边数据窗口的平移滑动，滤波器Filter w0 / Filter w1对不同的局部数据进行卷积计算。

值得一提的是：

左边数据在变化，每次滤波器都是针对某一局部的数据窗口进行卷积，这就是所谓的CNN中的局部感知机制。

打个比方，滤波器就像一双眼睛，人类视角有限，一眼望去，只能看到这世界的局部。如果一眼就看到全世界，你会累死，而且一下子接受全世界所有信息，你大脑接收不过来。当然，即便是看局部，针对局部里的信息人类双眼也是有偏重、偏好的。比如看美女，对脸、胸、腿是重点关注，所以这3个输入的权重相对较大。

与此同时，数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的参数（权重）共享机制。

再打个比方，某人环游全世界，所看到的信息在变，但采集信息的双眼不变。btw，不同人的双眼看同一个局部信息所感受到的不同，即一千个读者有一千个哈姆雷特，所以不同的滤波器就像不同的双眼，不同的人有着不同的反馈结果。

我第一次看到上面这个动态图的时候，只觉得很炫，另外就是据说计算过程是“相乘后相加”，但到底具体是个怎么相乘后相加的计算过程则无法一眼看出，网上也没有一目了然的计算过程。

以上只是理解深度可分离卷积过程的基础，希望可以帮到大家

秋名山庄李逍遥

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
多通道彩色图象的卷积过程详解

转载自：https://blog.csdn.net/oMoDao1/article/details/83545144最近一直在看mobilenet 中的深度可分离卷积结构，所以先理解下多通道图像的卷积过程。在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几...
复制链接

扫一扫