卷积神经网络CNN中池化层的原理分析

01_6

于 2024-07-28 16:16:49 发布

阅读量527

点赞数 6

分类专栏：深度学习文章标签： cnn 深度学习计算机视觉池化层

本文链接：https://blog.csdn.net/2301_77444219/article/details/140752061

版权

31 篇文章 0 订阅

订阅专栏

池化层（Pooling Layer）是卷积神经网络（CNN）中一种至关重要的层级结构，其主要作用在于对卷积层的输出进行降采样处理，以减少特征图的大小和参数数量，进而降低计算量，提高模型的泛化能力和训练速度。

池化层的作用
一种降采样，减小数据的空间大小因此参数的数量和计算量过拟合。也会下降，这在一定程度上也控制了过拟合。
常见的池化层
- 最大池化、平均池化、全局平均池化、全局最大池化。
  
  平均池化(average pooling)：计算图像区域的平均值作为该区域池化后的值
  
  最大池化(max pooling)：选图像区域的最大值作为该区域池化后的值。是最为常见的。
  
  通常来说，CNN的卷积层之间都会周期性地插入池化层。
  
  - 最大池化的原理分析
  Max pooling的主要功能是压缩，却不会损坏识别结果。
  这意味着卷积后的Feature Map中有对于识别物体不必要的冗余信息。那么我们就反过来思考，这些“冗余”信息是如何产生的。
池化层操作方法
与卷积层类似，池化层运算符由一个固定形状的窗口组成，该窗口根据其步幅大小在输入的所有区域上滑动，为固定形状窗口(有时称为池化窗口)遍历的每个位置计算一个输出。然而不同于卷积层中的输入与卷积核之间的互相关计算，池化层不包含参数。

池化层的操作通常包括以下几个步骤：

原理：

最大池化是一种在池化窗口中选取最大值作为输出的池化方法。在卷积神经网络的上下文中，最大池化层会接收来自前一层的特征图（feature map）作为输入，并在这个特征图上滑动一个固定大小的窗口（通常是2x2或3x3）。对于每个窗口，它都会选取窗口内所有值中的最大值作为该窗口的输出。然后，这个窗口会根据设定的步长（stride）在特征图上滑动，重复这个过程，直到遍历完整个特征图。
作用：
保留显著特征：通过选取最大值，最大池化能够保留特征图中最显著的特征，这些特征对于后续的分类或识别任务可能是最有用的。

降低特征维度：由于只保留了每个窗口的最大值，因此输出特征图的尺寸会相应减小，从而降低了数据的空间维度。

提供空间不变性：即使输入图像中的特征在空间位置上发生小的偏移，由于最大池化只关注窗口内的最大值，因此输出特征图仍然能够保持相对稳定，这有助于模型对输入图像的微小变化更加鲁棒。

原理：

平均池化是一种在池化窗口中计算平均值作为输出的池化方法。与最大池化类似，平均池化层也会接收来自前一层的特征图作为输入，并在特征图上滑动一个固定大小的窗口。但是，对于每个窗口，它会计算窗口内所有值的平均值作为该窗口的输出。然后，这个窗口会根据设定的步长在特征图上滑动，重复这个过程，直到遍历完整个特征图。
作用：

保留平均特征：通过计算平均值，平均池化能够保留特征图中的平均特征，这有助于平滑图像并减少噪声。

降低特征维度：与最大池化相同，平均池化也会降低输出特征图的尺寸，从而减少数据的空间维度。

提供背景信息：在某些情况下，平均池化能够提供更多关于图像背景的信息，这可能对某些任务（如场景理解）是有益的。

关注

专栏目录