动机、贡献:
从LeNet开始,矩形的卷积核一直都是CNN的标配。在这期间也有一些工作研究了可变形的卷积,但是,虽然可变形的卷积能够提高模型的performance,但是不可避免的引入了额外的参数和计算量。
因此,受人眼视觉系统感受野的启发,作者就想能不能提出一个圆形的卷积操作,相比于矩形的卷积,圆形的卷积核主要有以下几个优点:
1) 圆形卷积核的感受野和生物视觉的感受野更加相似;
2) 卷积核的感受野通常应该是各个方向都是对称的,这样可以适应全局或者局部输入特征在不同方向上的信息变化,圆形卷积核具备这个性质,但是矩形卷积核只在固定的几个方向是对称的;
3)之前也有工作表明,矩形卷积核的有效感受野更加接近圆形的高斯分布,因此,为什么不直接用一个圆形的卷积核呢?
在构造圆形卷积核时,由于感受野上的一些点通常不在网格上,因此作者采用双线性插值进行逼近,并提取了相应的变换矩阵。
最终,作者并没有采用了单独的圆形卷积,而是采用一种圆形和方形集成的卷积,并在训练过程中采用自适应的卷积核大小(也就是说,每个集成的卷积核都有一对方核和圆核。这两个核共享权值矩阵,但有不同的变换矩阵 )。
方法:
圆形卷积核 VS 方形卷积核
对于一个3x3的方形卷积,对感受野内的特征进行加权求和:
对于半径为1的圆形卷积,可以被建模成下面的公式:
由于圆核的接受场包含不是整数的位置,所以作者使用了双线性插值获取相应的采样值,得到下面统一的圆形卷积核的公式:
由于乘法的结合律,这里的矩阵W和B其实是可以合成一个新的矩阵的,所以在测试的时候其实并不会引入新的计算量和参数量。这里的圆形卷积计算其实方形卷积计算是一样的,都是对感受野内特征信息进行加权求和;不同的是,方形的卷积核的特征信息都可以轻松的获得,但是圆形感受野内的信息由于位置往往不是整数,所以需要用双线性插值的方法,计算相应位置的特征值。
集成圆形卷积核和方形卷积核
在本文中,作者并没有单独的使用圆形或者方形的卷积,而是对这两个卷积进行了集成。
每个集成的卷积核都有两种感受野(圆形和方形)。训练时,每层的所有卷积核都随机选择的圆形或者方形的卷积核进行训练。所以,一个集成核的感受野是一个伯努利随机变量E~Ber(S,R,0.5),集成核的输出卷积结构可以被表示成:
由于每一层都有两种卷积方式,并且在训练的时候,每一层的卷积都会随机选择这两种卷积中的任意一种,所以对于L层,就有2^L 种不同的子网络结构,这一步随机选择也是大大提高了模型的学习空间 。
可学习大小的卷积核
不同感受野大小的圆形和方形卷积核如上图所示。在训练时,作者采用了一个可学习的参数动态α控制了卷积核感受野的大小。
方形卷积核的感受野为D_s=αS,圆形卷积核的感受野为D_c=αR。由于在训练过程中,卷积核的形状是随机选择的,所以训练过程的感受野大小也符合伯努利分布D~Ber(D_s,D_c;0.5)。
测试结果:
感受野越大,圆形卷积的感受野越想一个圆形。
作者在WRNCifar和DenseNetCifar上做了实验。随着卷积核大小的增加,圆核比方核的优势变得更加显著,表明了圆核的优越性。
作者进一步探究了不同核的数量对实验结果的影响。在没有数据增强的情况下,随着集成核数量的增加,模型性能表现出不断增长的趋势。在有数据增强的情况下,圆核并没有展现出性能的提升。