Dynamic Region-Aware Convolution论文阅读笔记

论文名称为:动态区域意识的卷积

摘要主要内容:作者提出了一个动态区域意识的卷积DRConv(Dynamic RegionAware Convolution),它会将不同的卷积分配到对应的具有相同语义的空间区域上(这样每个卷积很可能卷积的位置都是很不规则的)。但这样卷积核进行卷积的次数并不会增加就像标准卷积一样,但是却提升了卷积的表达能力。这个DRConv在神经网络中可以被视为一个普通的卷积。

图片解释:输入图片首先通过卷积得到特征X然后通过k\times k的卷积,得到通道数为m的引导特征guide feature,这个m是认为设定的,然后对这个引导特征使用argmax函数得到一个通道数为1的引导掩模图guide mask,这个argmax函数无法求导比较麻烦,论文花了部分讲解了如何对解决这部分的问题。另一个分支将特征X输入滤波器生成模块得到m个滤波器。引导掩模图每一个像素值代表的是引导特征哪一层的值最大,也就是说引导掩模图每一个像素值只能从0,1,2,3,……,m-1之间的取值。然后值相同的区域为同一类。m个滤波器处理m个区域。

图片解释:首先是前向传播,输入特征X经过k\times k的卷积,得到通道数为m的引导特征guided feature,对于一个像素点的位置因为有多个通道所以有多个值,例如[0.1,0.2,0.9,0.2]这样的数值是不好处理的,需要经过hardmax变为[0,0,1,0]这样,这里第三个为1说明这个像素点需要选择第三个滤波器来卷积。但是进行这样操作很难进行反向传播,所以作者考虑直接对[0.1,0.2,0.9,0.2]这样的数据直接进行softmax认为得到的结果近似于[0,0,1,0],然后这样便可以计算梯度来进行反向传播了。论文中使用softmax来替代one-hot进行梯度计算的公式我看的不是很懂。😂

图片解释:输入特征X通过AAP(adaptive average pooling)来得到固定大小k\times k \times C大小的输出,然后经过1x1的卷积以及sigmoid(.)激活函数,更改了特征形状为k\times k \times m^2,然后经过group=m的1x1的分组卷积(后面不接激活函数)得到形状为k \times k \times (m \times O \times C)的输出,其中k为卷积核的大小,m为滤波器的种类,O为卷积后的输出通道数,C为输入通道数,这样得到的就是生成的滤波器。

想法:softmax来近似one-hot来方便进行反向传播公式看的并不是很理解,知道是求导,也有可能作者本身写的就让人很难看懂😂。

还有使用softmax来近似one-hot可能有点问题,比如[0.51,0,50,0,0]变成[1,0,0,0]使用softmax来代替one-hot的结果来进行反向穿鼻传播不是很合适,是不是可以对softmax后的结果加入loss约束,来保证最后呈现的结果符合one-hot的形式。

论文中的区域数量m也不好确定只能通过实验来对比哪个效果更好。

 

 

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值