【深度学习】池化 (pooling)

JNingWei

已于 2023-01-26 16:26:33 修改

阅读量9.1k

点赞数 9

分类专栏：深度学习文章标签：深度学习人工智能计算机视觉神经网络 cnn

于 2017-12-18 15:11:30 首次发布

本文链接：https://blog.csdn.net/JNingWei/article/details/78833319

版权

79 篇文章 62 订阅

订阅专栏

深度学习中，有两种实现非线性的算子。一个是激活函数，另一个就是池化（pooling）：
这里写图片描述

在知乎上面看到一个关于池化的神解释，摘来：

池化=涨水
卷积的目的是为了得到物体的边缘形状

可以想象水要了解山立体的形状
水位低时得出山脚的形状
水位中等时得出山腰的形状
水位高时得出山顶的形状

三点就可以大致描出山的简笔画

池化的过程=升高水位(扩大矩阵网格)
卷积的过程是区分哪里是水，哪里是山

加上一点个人理解：

对于网络结构而言，上面的层看下面的层经过pooling后传上来的特征图，就好像在太空上俯瞰地球，看到的只有山脊和雪峰。这即是对特征进行宏观上的进一步抽象。

那么为什么需要 进行抽象 呢？

因为：经过池化后，得到的是 概要统计特征 。它们不仅 具有低得多的维度 (相比使用所有提取得到的特征)，同时还会 改善结果(不容易过拟合) 。

max_pooling： 夜晚的地球俯瞰图，灯光耀眼的穿透性让人们只注意到最max的部分，产生亮光区域被放大的视觉错觉。故而 max_pooling 对较抽象一点的特征（如纹理）提取更好。
这里写图片描述

average_pooling： 白天的地球俯瞰图，幅员辽阔的地球表面，仿佛被经过了二次插值的缩小，所有看到的都是像素点取平均的结果。故而 average_pooling 对较形象的特征（如背景信息）保留更好。
这里写图片描述

把梯度直接传给前一层最max的像素，其余像素为0。

在这里插入图片描述

根据映射关系，把梯度均分成n份传给前一层。

在这里插入图片描述

选用 max_pooling 还是 average_pooling ，要看需要识别的图像细节特征情况。知乎上说 二者差异不会超过 2% ，这个我深表质疑。

相比之下，个人感觉 max_pooling 是比 average_pooling 更抽象化的操作，因此可以抽象出更高级一点的特征。

由于pooling太过粗暴，操作复杂，目前业界已经逐渐放弃了对pooling的使用。替代方案 如下：

关注

专栏目录