使用AvgPooling替换AdaptivePooling，池化padding,global average pooling 与 average pooling 的差别

最新推荐文章于 2025-04-19 23:19:35 发布

Hali_Botebie

最新推荐文章于 2025-04-19 23:19:35 发布

阅读量2.9k

点赞数 4

分类专栏： DNN深度神经网络

原文链接：https://blog.csdn.net/github_28260175/article/details/103436020

版权

DNN深度神经网络专栏收录该内容

43 篇文章

订阅专栏

其他推理框架可能不支持AdaptivePooling操作，该操作仅存于PyTorch中

PyTorch官方文档可知，

AdaptivePooling可通过输入大小input_size自适应控制输出大小output_size，
而一般的AvgPooling/MaxPooling则是通过kernel_size、stride、padding来计算output_size，公式如下：
$output_size=ceil((input_size+2∗padding−kernel_size)/stride)+1$

因此通过input_size、output_size反推kernel_size、stride、padding，参考官方源码(https://github.com/pytorch/pytorch/blob/master/aten/src/ATen/native/AdaptiveAveragePooling.cpp)将padding设为0，那么可推出去kernel_size、stride：

$stride=floor(input_size/output_size)$
$kernel_size=input_size−(output_size−1)∗stride$

例如，PyTorch网络的某一层含有nn.AdaptiveAvgPool2d(output_size=(14,14))，

它的output_size为 $(14, 14)$ ，
该层的输入特征图大小为 $10 * 128 * 128$ ，
那么输出的特征图大小为 $10 * 14 * 14$ ，那么带入公式

可计算出nn.AvgPool2d(kernel_size, stride)的

stride=(int(128/14), int(128/14)),
kernel_size=((128-(14-1)*stride, (128-(14-1)*stride)

验证如下：

import torch
from   torch import nn

input = torch.randn(10, 36, 36)
AAVP = nn.AdaptiveAvgPool2d(output_size=(12,12))
AVP  = nn.AvgPool2d(kernel_size=(3,3), stride=(3,3))

output_AAVP = AAVP(input)
output_AVP  = AVP(input)

链接：https://blog.csdn.net/github_28260175/article/details/103436020

实际情况

GAP

在这里插入图片描述

global average pooling 与 average pooling 的差别就在 “global” 这一个字眼上。global 与 local 在字面上都是用来形容 pooling 窗口区域的。 local 是取 feature map 的一个子区域求平均值，然后滑动这个子区域； global 显然就是对整个 feature map 求平均值了。

链接：https://blog.csdn.net/qq_23304241/article/details/80292859

代码验证

利用现有的pooling API实现全局平均池化的效果。

首先我们简单理解全局平均池化操作。
如果有一批特征图，其尺寸为 [ B, C, H, W], 我们经过全局平均池化之后，尺寸变为[B, C, 1, 1]。
也就是说，全局平均池化其实就是对每一个通道图所有像素值求平均值，然后得到一个新的1 * 1的通道图。

明白这个思路之后，我们就可以很容易实现全局平均池化了。

利用自适应平均池化就可以快速实现。或者自适应最大池化也可以，一样

链接：https://blog.csdn.net/CVSvsvsvsvs/article/details/90495254

In [1]: import torch

In [2]: a = torch.rand([1, 2048 ,32 ,32])

In [3]: a.size()
Out[3]: torch.Size([1, 2048 ,32 ,32])

In [4]: b = torch.nn.functional.adaptive_avg_pool2d(a, (1,1))  # 自适应池化，指定池化输出尺寸为 1 * 1

In [5]: b.size()
Out[5]: torch.Size([1, 2048 , 1, 1])

池化padding

这里主要分析最大池化和平均池化两个函数，函数中padding参数设置和矩阵形状计算都与卷积一样，但需要注意的是：

当padding=‘SAME’，计算avg_pool时，每次的计算是除以图像被filter框出的非零元素的个数，而不是filter元素的个数，如下图，第一行第三列我们计算出的结果是除以2而非4，第三行第三列计算出的结果是除以1而非4；
当计算全局池化时，即与图像矩阵形状相同的过滤器进行一次池化，此情况下无padding，即在边缘没有补0，我们直接除以整个矩阵的元素个数，而不是除以非零元素个数（注意与第一点进行区分）