Drone-Based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning阅读笔记
J. Ding, N. Xue, Y. Long, G.-S. Xia, and Q. Lu, “Learning RoI transformer for oriented object detection in aerial images,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 2849–2858.(RGB-Infrared Vehicle base)
Abstract
摘要—基于无人机的车辆检测旨在定位航拍图像中的车辆位置和类别。它促进了智能城市交通管理和灾难救援的发展。研究人员在这一领域做出了大量努力,并取得了相当的进步。尽管如此,在物体难以区分的情况下,特别是在光线不足的情况下,这仍然是一个挑战。为了解决这个问题,我们构建了一个大规模的基于无人机的RGB-红外车辆检测数据集,称为DroneVehicle。我们的DroneVehicle收集了28,439对RGB-红外图像对,覆盖了从白天到夜晚的城市道路、住宅区、停车场和其他场景。==由于RGB图像和红外图像之间存在巨大差异,跨模态图像提供了有效信息和冗余信息。==为了解决这一难题,我们进一步提出了一个不确定性感知的跨模态车辆检测(UA-CMDet)框架,以从跨模态图像中提取互补信息,这可以显著提高低光条件下的检测性能。设计了一个不确定性感知模块(UAM),用于量化每种模态的不确定性权重,这些权重是通过跨模态交集覆盖比(IoU)和RGB照明值来计算的。此外,我们设计了一个照明感知的跨模态非最大抑制算法,以在推理阶段更好地整合模态特定信息。在DroneVehicle数据集上进行的广泛实验表明了所提方法在跨模态车辆检测中的灵活性和有效性。该数据集可从https://github.com/VisDrone/DroneVehicle下载。
Introduction
基于无人机的车辆检测在智能城市交通管理和灾害救援中扮演着重要角色[1]-[6]。装备了摄像头的无人机能够收集更宽视角的图像,这对捕捉地面物体更为有利。然而,由于背景复杂多变以及照明条件频繁改变,基于航空图像的物体检测[7], [8]在计算机视觉中仍然是一个活跃的挑战性任务。
最近,一些与航空图像物体检测相关的方法[9]-[14]已经出现。然而,这些方法大多只针对RGB模态设计,并不能克服低光照复杂场景中的挑战[15], [16]。目前,解决这一问题的最大障碍是缺乏用于车辆检测的大规模全时航空视图数据集。为了弥补这一缺口,我们构建了一个基于无人机的RGB-红外交叉模态车辆检测数据集(DroneVehicle)。考虑到红外摄像机在全时成像方面的稳健性,我们引入红外图像来为RGB模态提供补充信息,进而形成RGB-红外图像对。我们的DroneVehicle包含了28,439组RGB-红外图像对,并为共计953,087个物体提供了定向边界框(OBB)注释。此外,我们的DroneVehicle覆盖了从白天到夜晚的多种场景,包括城市道路、乡村地区、住宅区、停车场等。据我们所知,这是第一个也是最大的全时基于无人机的RGB-红外交叉模态数据集。
这些RGB-红外图像对引入了有效信息;然而,它们也引入了冗余信息[17]-[19]。例如,因为红外图像不受光线影响,它们在低光照条件下能提供比RGB图像更明显的物体位置和类别。然而,由于缺乏颜色信息和热交叉的负面效应,某些与真实物体外观相似的虚假物体可能会在红外图像中出现,从而导致交叉模态检测性能受损,即使RGB图像是在可接受的照明条件下捕获的。结合RGB和红外两种模态的优势,以改善整体物体检测性能的想法,已经从社群中获得了广泛的关注。

一些研究者对RGB-红外交叉模态物体检测进行了深入研究[22]-[24]。不幸的是,这些方法大多是为多光谱行人检测任务设计的,它们不能预测航空图像中物体的方向。此外,这些研究通常在城市街景中进行,它们无法解决航空场景中的某些问题,如广阔的覆盖场景、混乱的图像背景和某些场景中极低的可见性。
如图1所示,DroneVehicle中的一些RGB图像在航空场景中完全没有光,导致车辆位置不确定。在这种情况下,相应的红外图像可以提供更清晰的成像细节。尽管缺乏颜色信息,RGB图像在某些光照良好的白天场景中可能会比红外图像实现更高的检测准确率。例如,红外图像中的一些混乱的矩形物体有着与车辆类似的外观,这降低了性能,如图1的第二列所示。此外,由于红外成像设备的热交叉现象,“幽灵阴影”可能出现在没有任何车辆的某些位置,导致在红外图像中检测物体时产生强烈的不确定性。而且,RGB和红外摄像机在图像收集过程中的姿态差异可能导致配对的RGB-红外图像出现像素错位,从而在车辆检测中造成位置上的不确定性。
为了解决这个问题,我们提出了一个不确定性感知的跨模态车辆检测(UA-CMDet)方法,该方法协同学习RGB和红外模态的有效信息。具体来说,我们设计了一个不确定性感知模块(UAM)来量化每个物体的不确定性。UAM采用RGB-红外图像对的真值标注作为先验知识,并结合RGB照明和跨模态交集覆盖率(IoU)来计算物体的不确定性权重。此外,我们还设计了一个照明感知的非最大值抑制(NMS)策略,以改善不同模态的检测结果的整合。我们在我们的DroneVehicle和两个具有挑战性的RGB-红外物体检测数据集上验证了所提方法的有效性和可靠性。
Method


A. Uncertainty-Aware Module
正如所提及的,红外图像中的物体混淆和“幽灵阴影”问题会导致不确定的物体位置,并且在低光照条件下,RGB图像中的物体位置也存在较大的不确定性。为了解决这个问题,我们的方法尝试利用不确定性作为权重来增强模型学习的效果,同时减少由高不确定性物体引起的偏差。最近,已经有大量的工作致力于通过构建数学分布来量化不确定性[57]-[60]。在这项研究中,我们提出了一个UAM来量化任务驱动下的跨模态不确定性。
UAM首先计算交叉模态交集覆盖率( C M _ I o U CM\_IoU CM_IoU)的真实边界框在RGB-红外图像对中的值,然后使用它来量化两种模态之间的定位差异。通常,IoU(交集覆盖率)用于评估物体检测中预测框的定位质量。与在每个预测框和真实边界框之间计算IoU不同,我们的 C M _ I o U CM\_IoU CM_IoU是在两种模态的真实边界框上执行的。 B r g b B_{rgb} Brgb 和 B i n f r a r e d B_{infrared} Binfrared 分别代表RGB和红外图像的真实边界框, a r e a area area 是一个用于计算任意多边形面积的函数。最终, C M _ I o U CM\_IoU CM_IoU 可以计算为:
C M _ I o U = a r e a ( B r g b ∩ B i n f r a r e d ) a r e a ( B r g b ∪ B i n f r a r e d ) . CM\_IoU = \frac{area(B_{rgb} \cap B_{infrared})}{area(B_{rgb} \cup B_{infrared})}. CM_IoU=area(Brgb∪Binfrared)area(Brgb∩Binfrared).
理想情况下, C M _ I o U ∈ ( 0 , 1 ) CM\_IoU \in (0, 1) CM_IoU∈(0,1) 应接近1。我们可以使用 C M _ I o U CM\_IoU CM_IoU来匹配两种模态中对应的真实边界框。匹配真实边界框的细节如下:假设在RGB图像中有 R R R个真实边界框,在红外图像中有 T T T个。我们通过计算RGB和红外模态中每个边界框之间的 C M _ I o U CM\_IoU CM_IoU来构建一个 R × T R \times T R×T矩阵。在这个矩阵中,如果某列中的最大元素的值在 [ 0.8 , 1 ] [0.8, 1] [0.8,1]范围内,那么这个元素对应的坐标 ( r , t ) (r, t) (r,t)表示RGB图像中的第 r r r个真实边界框和红外图像中的第 t t t个真实边界框匹配。此外,根据匹配结果,我们还可以确定每种模态中缺失边界框的索引号。
(因为RGB在黑夜中很多车看不到,红外又存在ghost shadow现象,所以它们之间不可能是一一对应的)
由于红外模态缺乏颜色信息和纹理细节,红外图像中的物体可能会呈现混淆外观,并且在手动标注过程中容易被遗漏。在这种情况下,我们使用RGB模态的真实边界框来填补红外模态中缺失的边界框。然后,我们为红外模态中新添加的每个边界框分配一个不确定性权重 ω i n f \omega_{inf} ωinf,并将原始边界框的权重设为1。最终,我们得到红外模态中每个物体的不确定性权重 ω T \omega_T ωT:
ω T = { ω i n f if object missing , 1 otherwise . \omega_T = \begin{cases} \omega_{inf} & \text{if object missing},\\ 1 & \text{otherwise}. \end{cases} ωT={ωinf1if object missing,otherwise.
对于目标丢失的,赋权重 W i n f W_{inf} Winf,否则为1
因为在低光照条件下,RGB图像中的物体标注通常会缺失,很难匹配RGB和红外图像之间的准确位置。考虑到在这种情况下RGB图像中的物体位置不确定,我们为其中的每一个分配一个不确定性权重
ω
r
g
b
\omega_{rgb}
ωrgb。同时,我们使用红外模态的真实边界框来填补RGB模态中缺失的边界框。此外,不同的照明条件也极大地影响检测性能,特别是对于RGB模态。不同的照明级别影响RGB图像中物体的不确定性;因此,我们使用图像直方图来估计RGB图像中的照明不确定性
ω
i
o
\omega_{io}
ωio。具体来说,我们首先将RGB图像转换为灰度域,然后计算灰度值低于
G
r
a
y
_
T
h
r
e
s
h
o
l
d
Gray\_Threshold
Gray_Threshold的像素数
N
u
m
_
G
r
a
y
Num\_Gray
Num_Gray。我们计算
D
a
r
k
_
V
a
l
u
e
Dark\_Value
Dark_Value作为
N
u
m
_
G
r
a
y
Num\_Gray
Num_Gray与图像中像素总数的比值。如果
D
a
r
k
_
V
a
l
u
e
Dark\_Value
Dark_Value大于
L
i
g
h
t
_
T
h
r
e
s
h
o
l
d
Light\_Threshold
Light_Threshold,我们设置
ω
i
o
\omega_{io}
ωio为
1
−
D
a
r
k
_
V
a
l
u
e
1 - Dark\_Value
1−Dark_Value;(也就是越黑,RGB的比重越小)否则,我们设置
ω
i
o
\omega_{io}
ωio为1。根据实验,
G
r
a
y
_
T
h
r
e
s
h
o
l
d
Gray\_Threshold
Gray_Threshold设为60,
L
i
g
h
t
_
T
h
r
e
s
h
o
l
d
Light\_Threshold
Light_Threshold设为0.45。==因为跨模态图像对在图像采集过程中难以逐像素对齐,我们设置一个对齐阈值
μ
\mu
μ来量化两种模态之间物体位置的错位。==以红外模态为参考,当
0
<
C
M
_
I
o
U
<
μ
0 < CM\_IoU < \mu
0<CM_IoU<μ时,我们取
C
M
_
I
o
U
CM\_IoU
CM_IoU作为错位物体的不确定性权重
ω
c
m
_
i
o
u
\omega_{cm\_iou}
ωcm_iou。我们将其分配给RGB模态的物体的真实边界框。最终,RGB模态中每个物体的不确定性权重
ω
R
\omega_R
ωR可以计算为:
ω
R
=
{
ω
r
g
b
if object missing
,
ω
c
m
_
i
o
u
×
ω
i
o
if not alignment
,
ω
i
o
if alignment
.
\omega_R = \begin{cases} \omega_{rgb} & \text{if object missing},\\ \omega_{cm\_iou} \times \omega_{io} & \text{if not alignment},\\ \omega_{io} & \text{if alignment}. \end{cases}
ωR=⎩
⎨
⎧ωrgbωcm_iou×ωioωioif object missing,if not alignment,if alignment.
对于目标丢失的,赋权重 W r g b W_{rgb} Wrgb,对于没有对齐,也就是说严重没对齐的,我们取 C M _ I o U CM\_IoU CM_IoU作为错位物体的不确定性权重 ω c m _ i o u \omega_{cm\_iou} ωcm_iou,RGB还有一个照明度权重 ω i o \omega_{io} ωio
B. Uncertainty-Aware Cross-Modality Detector
UA-CMDet包括CMDet和UAM。具体来说,我们选择RoITransformer[9]作为我们的基本定向车辆检测器,并修改它成为CMDet以处理RGB-红外输入。CMDet由RGB分支、红外分支和融合分支组成。我们设计了一个跨模态融合模块来共同学习融合特征和各自模态的知识。UAM为每个物体提供了一个不确定性权重。
如图5所示,我们的UA-CMDet的输入是一对RGB-红外图像,我们将其输入到主干网络中。在这项研究中,我们使用ResNet-FPN作为主干网络。在每个主干网络中,我们使用ResNet[61]作为特征提取器和FPN[62]来细化ResNet提取的特征图。每个主干网络的输出是不同尺度的5组特征图,分别是原始图像大小的4倍、8倍、16倍、32倍和64倍降采样。每组特征图总共有256个通道。在UA-CMDet中,我们将从主干网络不同层提取的所有特征图输入到跨模态融合模块中。最终,我们通过连接同一尺度的特征图获得跨模态知识。==具体来说,我们在通道维度上连接相同尺度的特征图,然后将它们发送到1x1卷积层以实现降维和跨通道信息交互。==然后我们将每个分支的特征图与不确定性权重一起,输入到相应的检测头中。考虑到为各自模态保留的特定特征,我们保留了红外模态和RGB模态在训练期间的独立检测头。
我们遵循RoI Transformer[9]的检测头结构,它由一个RPN[44]和一个RoI Transformer模块组成。RPN负责提出水平提议,RoI Transformer模块负责将水平提议转换为定向提议,并执行精细分类和回归。在每个检测头中,UAM可以重新校准涉及RPN和RoITransformer模块的物体边界框回归的权重,从而减少具有不确定性的边界框的回归损失。每个物体的边界框回归损失 L l o c L_{loc} Lloc可以计算为:
L l o c ( t u , v , ω j ) = ω j ∑ i smooth L 1 ( t i u − v i ) , L_{loc}(t^{u}, v, \omega_{j}) = \omega_{j} \sum_{i} \text{smooth}_{L_1}(t_i^{u} - v_i) , Lloc(tu,v,ωj)=ωji∑smoothL1(tiu−vi),
其中 i ∈ { x , y , w , h , θ } , t u i \in \{x, y, w, h, \theta\}, t^{u} i∈{x,y,w,h,θ},tu代表预测结果, u u u代表真实类别, v v v代表真实边界框回归目标, ( x , y ) (x, y) (x,y)表示预测结果的中心, ( w , h ) (w, h) (w,h)表示预测结果的宽度和高度, θ \theta θ表示预测结果的方向, ω j \omega_{j} ωj表示不确定性权重,其中 j ∈ { R , I , F } j \in \{R, I, F\} j∈{R,I,F}。每个物体在融合分支上的不确定性权重 ω F \omega_F ωF与红外分支上的一致,即 ω F = ω T \omega_F = \omega_T ωF=ωT。
以RGB分支为例,我们使用多任务损失 L r g b L_{rgb} Lrgb来共同训练分类器和边界框回归器:
L r g b ( p , u , t u , v , ω j ) = L c l s ( p , u ) + [ μ ≥ 1 ] L l o c ( t u , v , ω j ) , L_{rgb}(p, u, t^{u}, v, \omega_{j}) = L_{cls}(p, u) + [\mu \geq 1]L_{loc}(t^{u}, v, \omega_{j}) , Lrgb(p,u,tu,v,ωj)=Lcls(p,u)+[μ≥1]Lloc(tu,v,ωj),
其中 L c l s L_{cls} Lcls是一个交叉熵损失函数, p p p代表每个类别的预测概率。Iverson括号 [ μ ≥ 1 ] [\mu \geq 1] [μ≥1]在 u ≥ 1 u \geq 1 u≥1时评估为1,否则为0。按照惯例,捕获所有背景类别标记为 u = 0 u = 0 u=0。
我们的目标损失是,
L = L r g b + L i n f + L f u s i o n . L = L_{rgb} + L_{inf} + L_{fusion} . L=Lrgb+Linf+Lfusion.
C. Illumination-Aware Non-Maximum Suppression
也就是对RGB分支的分类score进行了一个照明度感知操作,乘照明度权重
如图6所示,在推理期间,我们的UA-CMDet包括RGB模态检测器、红外模态检测器、融合检测分支和IA-NMS模块。两种模态的检测器分别执行分类和回归,并在融合检测分支中,跨模态融合模块整合了两种模态的信息,并将融合特征馈入其检测头以进行预测。最终,IA-NMS通过后处理所有输出,更好地整合了不同模态的检测结果。
NMS[63]通常用于确定物体检测中的最终物体边界框。它根据分类概率对候选边界框进行排序,这可以使用物体检测器的分类器中的softmax获得。然而,softmax倾向于夸大预测类别的概率[59],这可能会影响跨模态物体检测器的性能。例如,RGB分支在暗场景中很难准确预测真实物体位置。当三个分支的预测结果在模型中集成后,RGB分支预测的假阳性样本严重影响了最终的检测性能。
考虑到RGB图像对光照条件敏感,且NMS在减少冗余边界框方面有效,我们提出了一个IA-NMS模块。在IA-NMS中,我们设置初始检测框列表和三个检测分支的相应检测分数为 B r B_r Br、 B t B_t Bt、 B f B_f Bf、 S r S_r Sr、 S t S_t St、 S f S_f Sf,其中 B r = { b r 1 , . . . , b r N } B_r = \{br_1, ..., br_N\} Br={br1,...,brN}, B t = { b t 1 , . . . , b t N } B_t = \{bt_1, ..., bt_N\} Bt={bt1,...,btN}, B f = { b f 1 , . . . , b f N } B_f = \{bf_1, ..., bf_N\} Bf={bf1,...,bfN}, S r = { s r 1 , . . . , s r N } S_r = \{sr_1, ..., sr_N\} Sr={sr1,...,srN}, S t = { s t 1 , . . . , s t N } S_t = \{st_1, ..., st_N\} St={st1,...,stN}, S f = { s f 1 , . . . , s f N } S_f = \{sf_1, ..., sf_N\} Sf={sf1,...,sfN}。设 N l N_l Nl为NMS阈值。我们将RGB模态的候选边界框的检测分数与当前RGB图像的照明不确定性权重 ω i o \omega_{io} ωio相乘,表达为 S r ← S r × ω i o S_r \leftarrow S_r \times \omega_{io} Sr←Sr×ωio。然后我们合并三个分支的所有候选边界框进行NMS操作。IA-NMS可以减少RGB模态预测结果对模型最终检测结果的干扰,尤其是在暗场景中。
F. 讨论
尽管我们提出的方法在性能上超过了单模态方法,但在计算复杂度或模型参数数量上并没有显著优势。我们比较了所提方法的参数数量和计算复杂度与其他最先进方法。所提方法的计算复杂度为2.7 img/s,其中"img/s"代表算法每秒可以处理的图像数量,其参数数量为138.69M。在相同条件下,RoITransformer[9]、Mask R-CNN[45]、Faster R-CNN(OBB)[8]和RetinaNet(OBB)[42]的计算复杂度分别为6.9、7.6、8.7 img/s,它们的参数数量分别为55.06M、43.77M、41.15M和36.21M。不同于这些单流方法,我们的方法采用了一个多流框架来整合跨模态信息,这显著提高了检测准确性,同时导致了更高的计算成本。
VI. 结论
在本文中,我们构建了一个大规模基于无人机的RGB-红外车辆检测数据集(DroneVehicle),这是第一个也是最大的跨模态数据集,使得在复杂航空场景中的车辆检测成为可能。考虑到RGB和红外图像之间的巨大差距,我们提出了一个不确定性感知的跨模态车辆检测(UA-CMDet)框架,该框架有效地结合了两种模态的不确定性信息,以更好地整合跨模态补充信息。提出了一个不确定性感知模块(UAM)来量化优化过程中每个物体的不确定性,同时减少了由高不确定性物体引起的偏差。广泛的实验验证了所提框架的有效性及其内部模块。我们的框架在三个RGB-红外物体检测数据集上对最先进方法实现了优越的性能。
在这项研究中,由于我们的DroneVehicle是从现实世界中收集的,数据集存在长尾分布问题。例如,数据集中的van数量小于car数量。此外,车辆在农村地区很少出现,这也导致了尾部场景。未来,我们将考虑长尾分布问题,并探索一个更有效的框架以进一步提高检测准确性并提高尾部物体的鲁棒性。

468

被折叠的 条评论
为什么被折叠?



