摘要
本文研究了基于稀疏卷积的检测头优化,证明了该算法在平衡精度和效率方面的有效性。然而,它存在着对微小物体的上下文信息的不充分整合,以及在存在不同尺度的前景时对遮罩比率的笨拙控制的问题。为了解决上述问题,我们提出了一种新的全局上下文增强自适应稀疏卷积网络(CEASC
)。它首先开发了一个上下文增强组归一化(CE-GN
)层,将基于稀疏采样特征的统计数据替换为全局上下文特征,然后设计了一种自适应多层掩蔽策略,以在不同尺度上生成最优掩蔽比,实现紧凑的前景覆盖,提高了准确性和效率。
总结
提出了一种新的全局上下文增强自适应稀疏卷积网络(
CEASC
)。首先
开发了一个上下文增强组归一化
(
CE-GN
)层,将基于稀疏采样特征的统计数据替换为全局上下文特征
又设计了一种自适应多层掩蔽策略,以在不同尺度上生成最优掩蔽比,实现紧凑的前景覆盖,提高了准
确性和效率
。
1、介绍
很多工作都在通过修剪和结构重新设计来使网络的精度和速度得到平衡。(但是这两者都存在问题)而稀疏卷积
显示了另一种有前景的替代方案,
通过可学习掩码仅在稀疏采样区域或通道上操作卷积来限
制计算。
虽然理论上很有吸引力,但他们的结果高度依赖于有意义区域的选择,
因为稀疏卷积中学习掩
模的焦点区域容易位于前景内。在无人机图像上,不适当的掩码比会放大焦点部分,并且在背景上消耗
更多不必要的计算,这往往会同时较低效率和准确性
。相反,夸张的场景缩小了焦点部分,导致难以完全覆盖前景和关键上下文,从而导致性能下降。DynamicHead[31]
和
QueryDet[42]
确实将稀疏卷积应用于检测头;不幸的是,当额外的特征图被联合用于一般目标检测的性能增益时,它们的主要目标是抵消增加的计算成本。它们都遵循了原始稀疏卷积的传统方式,即设置固定的掩码比或仅关注前景,因此远未达到无人机探测器所需的精度和效率之间的权衡。
(
一些模型中使用过稀疏卷积,但是它们都遵循原始稀疏卷积的传统方式,即设置固定的掩码比或仅关
注前景,因此无法达到精度和效率的权衡
)
在本文中,提出了一种新的即插即用的目标检测头优化方法,用于无人机图像上的高效目标检测,即全局上下文增强自适应稀疏卷积(CEASC
)。具体而言,我们
首先开发了一种上下文增强稀疏卷积
(
CESC
)来捕获全局信息并增强焦点特征,该卷积由具有上下文增强组归一化(
CE-GN
)层的残差结构
组成
。
由于
CE-GN
专门保留了一组整体特征并应用他们的统计进行归一化,它补偿了稀疏卷积造成的上
下文损失,并稳定了前景区域的分布
,从而避免了精度的急剧下降。然后,我们
提出了一种自适应多层
掩蔽(
AMM
)方案,该方案通过在不同级别的特征金字塔网络(
FPN
)上最小化精心设计的损耗,平衡
检测精度和效率,分别估计最优掩蔽比
。值得注意的是,
CESC
和
AMM
可以很容易地扩展到各种探测器,这表明CEASC
通常适用于现有最先进的物体探测器,用于无人机图像上的加速。
贡献
(
1
)
提出了一种新的基于稀疏卷积的检测头优化方法,即
CEASC
,用于无人机的有效目标检测。
(
2
)我们
引入了上下文增强的稀疏卷积层和自适应多层掩蔽方案来优化掩蔽比
,从而在检测精度和效率之间实现最佳平衡。
(
3
)我们通过将
CEASC
与各种最先进的探测器(如
RetinaNet
和
GFL V1
)集成,在无人机图像的两个主要公共基准上广泛评估了所提出的方法,在保持有竞争力的准确性的同时,显著降低了其计算成本。
总结
首先对
QueryDet
进行了改进,因为
QueryDet
中使用原始稀疏卷积的传统方式,即设置固定的掩模比。所以根据这个提出了AMM
(自适应多层掩模方案)。用稀疏卷积虽然提高了速度,但是精度降低了,因此增加了上下文信息进行融合。
2、相关工作
无锚探测器用于无人机的情况下并不是那么简单。
2.2在航空图像上的目标检测
对于无人机图象上的物体检测,目前的研究通常遵循从粗到细的管道,
其中启动粗探测器来定位包含密
集分布的小物体的大规模实例和子区域,并将精细探测器进一步应用于这些区域以找到小尺寸的例子
。例如,ClusNet[43]
采用尺度估计网络(
ScaleNet
)进行更好的精细检测;
DMNet[19]
通过进行密度图引导的连接作物生成来优化区域选择;UFPMPDet[14]
将粗检测器生成的子区域合并为统一的图像,并设计了多代理检测网络,以提高微小物体的检测精度;Focus&Detect[17]
利用高斯混合模型来估计焦区,并引入不完全盒抑制来处理重叠的焦区。尽管实现了高精度,但这些方法需要对一幅图像进行多次推理,这是不有效的,限制了它们在资源受限的无人机平台上的应用。
2.3用于对象检测的轻量级模型
并行提出了几种典型的解决方案来减少加速计算,包括神经架构搜索
[32
,
37]
、网络修剪
[24
,
25]
、知识提取[2
,
44]
和轻量级模型设计
[28
,
30]
。其中,轻型模型设计因其在速度
-
精度权衡方面的良好潜力而在无人机检测方面处于领先地位。
一些方法侧重于轻量级主干,其中
MobileNet[12
,
13
,
30]
和
ShuffleNet[26
,
47]
是代表,它们分别使用深度可分离卷积和组卷积。一些方法设计轻量级检测头,例如在YOLO
系列中,
YOLO v6[18
提出了一种高效的解耦头,而YOLO v7[36]
则计划重新参数化卷积。稀疏
CNN
最近成为一种很有前途的方法,可以通过生成卷积的逐像素样本掩码来加速推理。特别地,[31
,
42]
已经尝试将稀疏卷积应用于检测头。[31]通过空间门对不同尺度的
FPN
特征进行像素级组合,以降低计算成本。
QueryDet[42]
处理高分辨率图像,并利用FPN
的
P2
特征来提高微小物体的精度,同时通过聚焦损失
[22]
构建和训练级联稀疏查询结构以进行加速。然而,由于这些方法通常使用固定的掩码比而不捕获全局上下文,因此它们无法处理前景区域的严重波动,导致对无人机图像的检测结果优化不足。相反,我们的方法利用捕获的全局特征自适应地调整掩码比率,以平衡效率和准确性。
3、方法
如图
2
所示,在给定基本检测器的情况下,整个
CEASC
网络旨在通过
开发上下文增强稀疏卷积(
CESC
)
来优化
FPN
中不同层的检测头
,其
通过轻量级卷积模块以及上下文增强的组规范化(
CE-GN
)层将焦点
信息与全局上下文集成
。
设计了一个自适应多层掩模(
AMM
)模块,使得模型能够自适应地生成具有足
够掩模比的掩模,从而在精度和效率上达到更好的平衡。
总结
将
CESC
加入
FPN
中,为了通过轻量级卷积模块以及上下文增强的组规范化(
CEGN
)层将焦点信息与全局上下文集成。设计了一个自适应多层掩模(AMM
)模块,使得模型能够自适应地生成具有足够
x cd
掩模比的掩模。
3.1 上下文增强稀疏卷积
3.1.1稀疏卷积
无人机图像上的大多数现有探测器都使用密集的探测头,对整个特征图进行卷积。尽管充分探索视觉线索有利于探测微小物体,密集的头部需要更多的计算,这不适用于资源受限的无人机平台。同时,前景区域只占无人机获取的帧的一小部分,如图1
所示,
这表明密集头对背景进行了大量的计算操作,而背景中包含的对物体检测的有用的信息要少得多。这一观察结果揭示了仅通过对前景区域进行计算来加速检测头的潜力。
最近提出了稀疏卷积(
SC
),它通过使用稀疏掩模来学习对前景区域的操作,并被证明在加速各种视觉任务的推理阶段方面是有效的。受他们的启发,我们构建了基于SC
的网络。
总结
在无人机数据集中,前景可用的信息少,密集头的使用对背景进行了大量计算,而稀疏卷积(
SC
),通
过使用稀疏掩模来学习对前景区域的操作。
具体来说,给定
FPN
第
i层的特征映射,SC采用由共享核组成的掩码网络,
其中
B
,
C
,
H
,
W
分别表示批量大小、
通道大小、高度和宽度。基于对Xi进行卷积,生成软特征,通过使用技巧将其进一步转化为掩码矩阵,公式如下:
其中,表示两个随机噪声,表示sigmoid函数,是Gumbel-softmax中对应的温度参数。
根据等式
(1)
,只有掩码值为
1
的区域在推理过程中涉及卷积,从而降低了总体计算成本。
Hi
的稀疏性由
掩模比
r
∈
[0
,
1]
控制,在现有研究中,掩模比通常手动设置为大于
0.9
。
由于基本检测器(这里我们以
GFL V1
为例)在检测框架中有一个分类头和一个回归头,考虑到它们通常关注不同的区域,我们为每个
头分别引入了一个掩码网络
。每
个检测头采用四个卷积
GN-ReLU
层和一个卷积层进行预测,其中我们用
SC
层代替了传统的卷积层。
总结
为分类和回归头分别引入了一个掩模网络,每个检测头采用
4
个卷积
GN-ReLU
层和一个卷积层进行预
测,其中我们用
SC
层代替了传统卷积层
。
3.1.2上下文增强
如
[44]
所述,上下文线索(例如,目标物体周围的背景)有利于物体检测;然而,
SC
只在前景上进行卷积,而放弃了具有有用信息的背景,这可能会破坏整体准确性,特别是在无人机图像中普遍存在微小物体的情况下。为了解决这个问题,[40]
试图通过插值来恢复周围的上下文,但这是不可靠的,因为焦点和背景区域显示出很大的差异。在这项工作中,我们提出了一个轻量级的
CESC
模块,联合利用焦点信息
和全局上下文进行增强,同时提高后续计算的稳定性。
(就是说
在无人机图像中,只用稀疏卷积不好,所以又加了一个上下文信息(而这个上下文信息是通过
point-wise
卷积操作来生成全局上下文特征
Gi
)
)
如图
2
所示,我们
对特征图
Xi
应用
point-wise
卷积,生成全局上下文特征
Gi
。
由于
SC
只处理
Xi
的少数元
素,因此
Gi
在经过多轮
SC后趋于稳定,而不需要太多多额外的计算开销。
(
整个过程就是:从
FPN
中得到特征图
Xi
,通过
AMM
得到掩码矩阵
Hi
,通过
point-wise Conv
得到全局上下文Gi
,接着将
Xi
和
Hi
一起生成稀疏卷积操作之后的特征图,将
Gi
的均值和标准差进行归一化,补偿在稀疏卷积之后的特征图上,从而获得上下文增强后的特征Fi)
**
作为
SC
的重要组成部分,我们将全局上下文信息
Gi
嵌入到
SparseConvolution-GN-ReLU
图层
。该层以特征图Xi,j
,掩码
Hi
和全局特征
Gi
为输入。我们
没有像传统的
SC
那样使用激活元素来计算组归一化的统计
数据,而是采用
Gi
的均值和标准差进行归一化,旨在补偿缺失的上下文
,
假设
Li,j
是在
Xi,j
上应用
SC
后的
输出特征图,
CE-GN
获得上下文增强特征
Fi
,
j
如下:
其中mean[.]和std[.]分别代表均值和标准差,w和b是可学习的参数。
为了进一步减轻
SC
中的信息损失,使训练过程更加稳定,我们在训练过程中除了稀疏卷积之外,
还保留
了正常的密集卷积(就是原
Xi
特征图),生成了在全输入特征图上卷积的特征图
Ci
,
j
。然后,我们使
用
Ci
,
j
来通过优化
MSE
损失来增强稀疏特征图
Fi
,
j
,如下所示
:
其中
L
是
FPN
中的层的数量。 最后,我们在激活层之前采用了一种残差结构,将Gi
添加到
Fi,j中,即 。
这加强了上下文保存
。
CESC
模块和
CE-GN
层的完整架构如图
2
所示。
3.2自适应多层Masking
在没有任何额外约束的情况下,
稀疏检测器倾向于生成具有大激活比(或小掩模比)的掩模以获得更高
的精度,从而增加了总体计算成本。为了解决这个问题,大多数现有的尝试都使用固定的激活比率
。然而,由于航空图像的前景表现出严重的波动,固定比率容易导致计算的显著增加或由于前景区域的覆盖不足而导致精度的降低。为了在准确性和效率之间进行权衡,我们提出了
AMM
方案来自适应控制激活率
(或相反地控制掩模率)。(这里所提到的掩模比控制了稀疏性,所以就是说,通过不同图片的前景多
少,去自适应计算掩模比)具体地,AMM
首先基于
ground truth
标签来估计最优掩模比。
通过利用标签分配技术,对于第
i
个
FPN
层,我们获得了
ground truth分类结果,其中c表示包括背景在内的类别的数量;hi
和
wi
分别指示特征图的高度和宽度。
第
i
个
FPN
层中的最佳激活率
Pi
估计为:
分别表明属于正(前景)实例的像素和所有像素的像素的数量。(
前景像素比上所有像素
=
激活率
Pi
)
为了引导网络自适应地生成具有足够掩码比的掩码,我们采用以下损失
:
表示掩模
Hi
的激活率。通过最小化,Hi被迫
遵守与真实前景比率
Pi
相
同的激活比率,从而有助于生成足够的掩模比率。
通过添加常规检测损失,我们将总体训练损失公式如下: