tags: 深度学习;网络结构
Res2net
论文题目《Res2Net: A New Multi-scale Backbone Architecture》 2019.4
论文的主要贡献在于提出了使用更加细粒度的多尺度特征来进行分类、预测等,这样可以增加感受野,提升预测准确率
Res2Net模块
比如输入图像经过上面的1*1卷积之后,图像大小为w*h*256,那么Res2Net的方法是将这256个通道平均分成比如4组(x1,x2,x3,x4),每组的维度为w*h*64。然后x1直接连接到输出y1,x2在经过3*3的卷积K2之后,得到特征图y2;x3在与y2进行相加后,再经过3*3的卷积核K3,最后输出到y3;x4与y3进行相加后,输出到y4。最终,对获得的特征图y1、y2、y3、y4进行拼接,并使用1*1的卷积核进行特征融合。相比于原始ResNet的一个3*3的卷积操作,这里的操作更加细化,所以也说是细粒度的卷积操作。
这种细粒度操作的好处在于,假如输入的感受野是1,那么y1的感受野也是1,y2 的感受野就变成了3,y3的感受野就是5,y4的感受野就是7(假定stride=1)。也就是说,输出结果y中,包含了不同感受野的特征融合结果。而且,当分组越多,模型的特征提取会更好。
数学化的公式如下:
K在这里表示3*3的卷积核
由于这种分解融合的方式对于整体的网络结构并没有太多的依赖性,因此可以将这样的模块嵌入到任何卷积模块中,从而增加特征信息。作者的对比如下: