1 致谢
感谢 Thomas V的解答,请参阅《AdaptiveAvgPool2d In More Detail | Thomas V》
2 AdaptiveAvgPool2d: torch.nn.AdaptiveAvgPool2d
对于AdaptiveAvgPool2d算法,它跟GAP算法是十分类似的,其优点在于:可以将特征图resize到给定的输出尺寸,这一点跟F.interpolate()
比较类似,不过这里的元素聚合的方式用的是pool操作;
具体来说,AdaptiveAvgPool2d首先动态地生成池化核大小,即:round(input_size / target_size)
,采用“模板最大化”原则向上取整获得池化核大小;然后再在特征图上计算等距的位置点,计算起始坐标时就采用“最小原则”向下取整。
这里以1d图像为例,输入图像的大小是14,目标大小是4,于是模板大小为14/4=3.5;
对于等距点来说,一共有
4
4
4个等距区间,则起始位置分别是0、3.5、7和10,然后基于“模板最大化”原则向下取整(因为是起始点),于是得到0、3、7和10;于是,四个池化区间slices分别为0:4
、3:7
、7:11
、10:14
。
我们还可以通过实验看看AdaptiveAvgPool2d具体的计算效果,这里使用F.adaptive_avg_pool1d作为示例:
import torch
a = torch.arange(0,14., requires_grad=True) # 生成自然数序列
b = torch.nn.functional.adaptive_avg_pool1d(a[None, None], 4)
# a[None, None]的效果是在最前面添加两个维度,变为[1, 1, 14]
b.backward(torch.arange(1., 1+b.size(-1))[None,None])
print(b, a.grad)
b: tensor([[[ 1.5000, 4.5000, 8.5000, 11.5000]]], grad_fn=<SqueezeBackward1>)
3 计算过程模拟
模拟adaptive_avg_pool_1d的计算过程:[torch_pool_1d.ipynb]
def torch_pool_1d(inputs, target_size):
start_points = (torch.arange(target_size, dtype=torch.float32) * (inputs.size(-1) / target_size)).long()
end_points = ((torch.arange(target_size, dtype=torch.float32)+1) * (inputs.size(-1) / target_size)).ceil().long()
print(end_points)
pooled = []
for idx in range(target_size):
pooled.append(torch.mean(inputs[:, start_points[idx]:end_points[idx]], dim=-1, keepdim=False))
pooled = torch.cat(pooled, -1)
return pooled
inps = np.array([0, 1, 2, 3, 4, 5, 6], dtype=np.float32)[None, :]
inps_torch = torch.tensor(inps)
x1 = torch_pool_1d(inps_torch, 4)
x2 = torch.nn.functional.adaptive_avg_pool1d(inps_torch, 4)
print(x1)
print(x2)
>>> end_points: tensor([2, 4, 6, 7])
tensor([0.5000, 2.0000, 4.0000, 5.5000])
tensor([[0.5000, 2.0000, 4.0000, 5.5000]])