Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition阅读笔记

最新推荐文章于 2024-08-22 09:45:55 发布

Ma lidong

最新推荐文章于 2024-08-22 09:45:55 发布

阅读量674

点赞数

分类专栏： Attention 文章标签：深度学习人工智能计算机视觉原力计划

本文链接：https://blog.csdn.net/qq_41684249/article/details/118364252

版权

Attention 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

arXiv 2020
Ionut Cosmin Duta, Li Liu, Fan Zhu, Ling Shao
论文地址

一、简介

本文提出了一种金字塔卷积算法（PyConv），它能够在多个滤波器尺度上处理输入信号。PyConv包含一个内核金字塔，其中每个级别都包含大小和深度不同的不同类型的滤波器，这些滤波器捕捉场景中不同级别的细节，能够改善模型的识别能力。PyConv是高效的，并不会增加计算成本和参数。此外，它还具有很强的灵活性和可扩展性。

同一场景中有大量的类别，有些类别具有很大的空间表示，有些类别具有较小的表示，并且同一对象类别可以在同一图像中以不同比例出现。为了能够捕捉到类别的多样性和尺度上的变异性，使用具有单一空间大小的标准卷积可能不是针对这种复杂性的最佳解决方案。

二、方法

2.1 概述

在这里插入图片描述

如上图（a）是一个标准卷积核，图（b）是所提出的PyConv，它包含具有n级不同类型核的金字塔。其目的是在不增加计算成本或参数的情况下处理不同核尺度的输入。每个级别的内核包含不同的空间大小，从底部（级别为1）到顶部增加内核大小，同时，随着内核大小的增加，内核的深度逐渐减小。

在这里插入图片描述

通过分组卷积，对每个级别使用不同深度的内核。如图为8个输入，a为标准卷积，b和c为分组卷积，b可以理解为核的深度减少了2。当组的数量增加时，内核的深度减少，且参数量和计算成本也减少了。

2.2 优点

多尺度处理：

PyConv可以在不增加额外成本的情况下在多个尺度上解析输入以捕获更详细的信息。他是一种双向金字塔结构，一方面内核大小增加，另一方面，内核深度减小。这些内核带来了互补的信息，具有较小感受野的内核可以关注细节，捕获关于较小对象和对象的部分信息，而较大的感受野可以提供关于较大对象或上下文信息更加可靠的细节。

效率：

PyConv保持相似数量的模型参数和计算资源。

灵活性：

用户可以灵活地选择金字塔的层数、每个PyConv级别的内核大小和深度，而无需付出增加参数数量或计算成本的代价。此外，每个级别的输出特征映射的数量可以不同。

2.3 PyConv用于图像分类任务

在这里插入图片描述

如图为PyConv的一种使用方法，一个PyConv包含4个级别，其内核大小与对应的组数分别为9、7、5、3和16、8、4、1。

在这里插入图片描述

如上图为基于PyConv设计的模型。

2.4 PyConv用于语义分割任务

在这里插入图片描述

Local PyConv主要负责在多个尺度上捕获较小的对象和捕获局部精细细节，可以看作一个局部多尺度上下文聚合模块。

Global PyConv复制捕获有关场景的全局细节，并负责处理大对象。由于输入图像的大小可以变化，为了确保我们能够捕捉到完整的全局信息，我们将最大空间大小保持为9。我们应用了自适应平均汇集，将特征地图的空间大小减小到9×9(对于正方形图像)，这仍然保持了合理的空间分辨率。具有9×9卷积的层覆盖整个输入并捕获全部全局信息，然后，我们应用1×1卷积来融合来自不同尺度的信息。最后，我们使用双线性插值将特征映射向上采样到自适应平均汇集之前的初始大小。