Dynamic Region-Aware Convolution

最新推荐文章于 2023-04-25 18:00:52 发布

与光i

最新推荐文章于 2023-04-25 18:00:52 发布

阅读量566

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/dawnyi_yang/article/details/121183907

版权

摘要

文章提出了一种名字叫动态区域感知卷积（DRConv）的新卷积，它可以自动将多个滤波器分配给具有相似特征表示的空间区域。标准卷积层通常通过增加滤波器的数量提取更多信息，但有较高的计算成本。而DRConv可以自动分配多个滤波器到具有相似特征表示的相应空间区域，不仅可以提高卷积的表示能力，而且保持了与标准卷积相似的计算成本和平移不变性。
论文地址：Dynamic Region-Aware Convolution

思想

主流卷积操作多使用权重共享的方式，通过增加channel或使用更多filters增加模型的深度，来提取更多信息。这样会造成计算上有更大的开销，也更难优化。局部卷积分别处理每个位置的特征，但使用了更多的参数，破坏了平移不变性，且不同的输入样本所使用的filters是共享的，导致模型对不同样本中的特殊特征不敏感。
基于这些问题文章提出了区域动态感知卷积，如图1所示：
Alt

图1

DRConv中区域个数为 $m$ 。DRConv使用标准的 $k\times k$ 卷积从 $X$ 获得guided featrue；然后使用 $G(\cdot)$ filter generator module获得 $m$ 个filters。如guided mask所示，空间域被分为m个区域，每个区域拥有一个对应的filter $W_i$ （其在此区域中被共享）。之后在这些区域中使用使用各自对应的filter进行 $k\times k$ 卷积，获得输出 $Y$ 。
DRConv可以动态的为使用可学习instructor划分的不同空间域分配对应的filters，因此DRConv在拥有强大的语义表达能力的同时，保证了平移不变性。

具体方法

Dynamic Region-Aware Convolution

定义guided mask $KaTeX parse error: Expected '}', got 'EOF' at end of input: …S_0,...,S_{m-1}$ 来表示将空间维度划分为的 $m$ 个区域，每个区域 $S_t,t\in [0,m-1]$ 只对应一个filter。卷积核集 $W=[W_0,...,W_{m-1}$ 其中的filter $W^t\in R^C$ 对应与区域 $S_t$ ,那么第o个channel的输出特征可以表示为：
Alt
DRConv主要分为两步：
1.使用可学习的guided mask对空间进行区域划分。从图像语义角度来讲，就是将语义相似的特征分配到同一个区域内。
2.在每个区域内，使用通过filter generator module生成的filters中对应于该区域的filter，在区域内共享这个filter进行卷积操作。

Learnable guided mask

这个模块的作用是划分出使用同一个filter的区域，即，确定filter在空间维度上的分布。

Dynamic Filter: Filter generator module

filter generator module $G(\cdot)$ 则需要根据不同输入样本具有的不同特征，动态的为不同区域设计生成对应的filters。
Alt

图2

DRConv中filter生成器结构如图2所示，首先使用AAP(自适应平均池化)将 $X$ 进行下采样到 $k\times k$ 大小。然后输入第一个 $1\times 1$ 卷积层，其使用 $sigmoid(\cdot)$ 作为激活函数，得到的大小为 $k\times k\times m^2$ 。接着继续输入第二个 $1\times 1$ 卷积层，不使用激活函数，得到的大小为 $k\times k\times (m\times O\times C)$ ，即生成了 $m$ 个大小为 $k\times k$ 的filters。

实验

Alt

图3

图3展示了在ImageNet分类任务上，将不同的轻量级网络的卷积替换为DRConv的实验结果，可以看出DRConv能够显著提升模型的性能，并且对于不同的网络都是有用的。

在人脸识别、目标检测和分割任务上，相比于baseline，本文方法能够明显提高性能，证明了DRConv的有效性。
在不同模型大小下，和baseline方法的对比，本文的方法在小模型上能够实现更显著的性能提升，因为通过用DRConv取代标准卷积，小型模型将显著提高其建模语义信息的能力，从而获得更好的性能。