一些自己对EfficientDet的理解、总结以及实验
目录
1.EfficientDet网络结构
EfficientDet是在EfficientNet基础上提出来的目标检测模型,它将EfficientNet主干网络、级联的双向特征金字塔网络(bi-directional feature pyramid network,BiFPN)和联合缩放方法结合,可以快速高效完成目标检测,且检测准确率较高,同时网络参数量较之主流检测模型大幅减少,检测速度也得到了很大提升,是目前最先进的目标检测算法之一。EfficientDet是将EfficientNet的复合缩放思路进行延伸,把架构决策明确为了可拓展框架为不同的使用场景提供了D0-D7共8种模型,使用者可根据真实环境中软硬件的性价比与对精度和效率的实际需求,来对模型进行选择。EfficientDet D0-D7网络越来越深,输入分辨率也越来越大,精度越来越高的同时,计算量也越来越大。EfficientDet网络的整体架构如图1所示,是一个端到端的网络,以EfficientNet为主体网络,BiFPN作为特征网络接收来自主干网络的特征并对其进行双向特征融合,最后将融合特征送入分类和边框回归网络,输出目标的类别及位置信息实现目标检测。
图1 Efficientdet-d0算法网络结构图
1.1 主干网络
骨干特征提取网络对输入图片通过不断的下采样的得到P1-P7的特征层,P1、P2只是简单的下采样,不具有较高的语义信息,不参与后面的加强特征提取网络。而P3-P7称之为有效层,继续传入后面的加强特征提取网络进行特征提取。以Efficientnet-b0为例,网络架构如表1所示,Stage1是一个卷积核大小为3×3的普通卷积层,其中包含批量标准化(batch normalization, BN)和Swish激活函数。Stage2~Stage8都是在重复堆叠MBConv结构。Stage9由一个普通的1×1的卷积层,一个平均池化层和一个全连接层组成。如图3所示,MBConv正是Efficientnet的核心部分,总体的设计思路是倒转残差结构(inverted residuals),在3×3或者5×5深度可分离卷积结构前利用1×1卷积升维,在深度可分离卷积后增加了SENet(squeeze-and-excitation networks),最后利用1×1卷积降维后增加一个残差边。
表1 Efficientnet-b0的网络架构