Dynamic Region-Aware Convolution论文阅读笔记

最新推荐文章于 2024-09-16 21:30:36 发布

雷霆万菌

最新推荐文章于 2024-09-16 21:30:36 发布

阅读量111

点赞数

文章标签：论文阅读笔记深度学习

本文链接：https://blog.csdn.net/qq_55763810/article/details/131837589

版权

论文名称为：动态区域意识的卷积

摘要主要内容：作者提出了一个动态区域意识的卷积DRConv（Dynamic RegionAware Convolution），它会将不同的卷积分配到对应的具有相同语义的空间区域上（这样每个卷积很可能卷积的位置都是很不规则的）。但这样卷积核进行卷积的次数并不会增加就像标准卷积一样，但是却提升了卷积的表达能力。这个DRConv在神经网络中可以被视为一个普通的卷积。

图片解释：输入图片首先通过卷积得到特征 $X$ 然后通过 $k\times k$ 的卷积，得到通道数为m的引导特征 $guide feature$ ，这个m是认为设定的，然后对这个引导特征使用argmax函数得到一个通道数为1的引导掩模图 $guide mask$ ，这个argmax函数无法求导比较麻烦，论文花了部分讲解了如何对解决这部分的问题。另一个分支将特征 $X$ 输入滤波器生成模块得到m个滤波器。引导掩模图每一个像素值代表的是引导特征哪一层的值最大，也就是说引导掩模图每一个像素值只能从0,1,2,3,……,m-1之间的取值。然后值相同的区域为同一类。m个滤波器处理m个区域。

图片解释：首先是前向传播，输入特征 $X$ 经过 $k\times k$ 的卷积，得到通道数为m的引导特征 $guided feature$ ,对于一个像素点的位置因为有多个通道所以有多个值，例如[0.1,0.2,0.9,0.2]这样的数值是不好处理的，需要经过hardmax变为[0,0,1,0]这样，这里第三个为1说明这个像素点需要选择第三个滤波器来卷积。但是进行这样操作很难进行反向传播，所以作者考虑直接对[0.1,0.2,0.9,0.2]这样的数据直接进行softmax认为得到的结果近似于[0,0,1,0]，然后这样便可以计算梯度来进行反向传播了。论文中使用softmax来替代one-hot进行梯度计算的公式我看的不是很懂。😂

图片解释：输入特征 $X$ 通过AAP(adaptive average pooling)来得到固定大小 $k\times k \times C$ 大小的输出，然后经过1x1的卷积以及 $sigmoid(.)$ 激活函数，更改了特征形状为 $k\times k \times m^2$ ，然后经过 $group=m$ 的1x1的分组卷积（后面不接激活函数）得到形状为 $k \times k \times (m \times O \times C)$ 的输出，其中k为卷积核的大小，m为滤波器的种类，O为卷积后的输出通道数，C为输入通道数，这样得到的就是生成的滤波器。