【综述】CNN中的池化操作-你见过的没见过的池化这里都有

最新推荐文章于 2024-08-03 08:35:46 发布

*pprp*

最新推荐文章于 2024-08-03 08:35:46 发布

阅读量3k

点赞数 6

分类专栏： python 论文总结深度学习文章标签：神经网络深度学习

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/DD_PP_JJ/article/details/104777000

版权

池化操作(Pooling)是CNN中非常常见的一种操作，Pooling层是模仿人的视觉系统对数据进行降维，池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling)，在构建卷积神经网络时，往往会用在卷积层之后，通过池化来降低卷积层输出的特征维度，有效减少网络参数的同时还可以防止过拟合现象。

主要功能有以下几点：

抑制噪声，降低信息冗余
提升模型的尺度不变性、旋转不变形
降低模型计算量
防止过拟合

一提到池化操作，大部分人第一想到的就是maxpool和avgpool，实际上还有很多种池化操作。

大部分pooling操作满足上图的模型，假设输入大小为 $i$ , 输出大小为 $o$ , kernel size简称 $k$ , stride简称 $s$ ，满足以下公式：
$o=\lfloor\frac{i-k}{s} \rfloor+1$

1. 最大/平均池化

最大池化就是选择图像区域中最大值作为该区域池化以后的值，反向传播的时候，梯度通过前向传播过程的最大值反向传播，其他位置梯度为0。

使用的时候，最大池化又分为重叠池化和非重叠池化，比如常见的stride=kernel size的情况属于非重叠池化，如果stride<kernel size 则属于重叠池化。重叠池化相比于非重叠池化不仅可以提升预测精度，同时在一定程度上可以缓解过拟合。

重叠池化一个应用的例子就是yolov3-tiny的backbone最后一层，使用了一个stride=1, kernel size=2的maxpool进行特征的提取。

>>> import torch
>>> import torch.nn.functional as F
>>> input = torch.Tensor(4,3,16,16)
>>> output = F.max_pool2d(input, kernel_size=2, stride=2)
>>> output.shape
torch.Size([4, 3, 8, 8])
>>>

平均池化就是将选择的图像区域中的平均值作为该区域池化以后的值。

>>> import torch
>>> import torch.nn.functional as F
>>> input = torch.Tensor(4,3,16,16)
>>> output = F.avg_pool2d(input, kernel_size=2, stride=2)
>>> output.shape
torch.Size([4, 3, 8, 8])
>>>