依据光照强度对多光谱行人进行检测:Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

论文主要贡献

深入比较了6种不同的卷积网络融合架构,并分析了它们的适应性,使得一个普通的架构能够获得与最先进的结果相当的检测性能。进一步,我们发现从彩色或热图像行人检测信心与照明条件相关。考虑到这一点,提出一个光照感知更快的R-CNN (IAF RCNN)。具体地,介绍了一个照明感知网络,给出了输入图像的照明测量。然后我们自适应地合并颜色和热子网络通过一个门函数定义超过照明值。在KAIST多光谱行人基准上的实验结果验证了IAF R-CNN的有效性。

主要贡献有三方面:

  1. 深入比较了6个源自Faster R-CNN的convnet融合架构,并指出了它们的关键适应性。发现一旦适当调整,多光谱Faster R-CNN的性能从基线获得显著改善,几乎与最先进的方法效果相同。
  2. 提出了一种基于IAF R-CNN的多光谱行人检测模型,该模型将RGB子网络、热成像子网络和加权层集成为一个统一的框架。
  3. 提出了一种光照感知加权机制,提高了RGB子网络、热成像子网络的贡献,提高了在光照条件好的和坏的情况下的最终检测性能。利用提出的IAF R-CNN,我们在KAIST多光谱行人基准上实现了新的最先进的性能

六种不同数据源融合方式

在这里插入图片描述

(a) Input Fusion

输入融合只是将RGB图像和热成像图像叠加在一起,然后将它们输入到网络中。这是对Faster R-CNN最直接的扩展,从单色模态到GRB-热成像模态,由于输入通道的增加,只需要修改第一个卷积层。

(b) Early Fusion

早期的融合是在第一个卷积块之后集成RGB图像和热成像图像,首先连接来自两个子网络和随后的网络中的网络(NIN) [49] 的特征图来进行降维。因此,融合点后的层也可以受益于预先训练好的VGG-16初始化。

© Halfway Fusion

在随后的阶段,在第四个卷积块之后,通过相似的feature map拼接和基于NIN的降维,进行了RGB图像和热成像图像的融合。

(d) Late Fusion

晚融合是一种高级融合,它将RGB图像和热成像图像最后的全连通层连接起来。将两个子网络的最后卷积块后的feature map连接起来,在此基础上构建区域建议模块。

(e) Score fusion I

由两个子网络分别生成方案和检测。然后将检测结果反馈给其他子网络,对置信度进行重新评分。最终的检测是通过合并权重为0.5的两阶段检测置信值得到的。因此,它可以看作是两个子网络的级联设计。

(f) Score fusion II

评分融合是一种非级联的评分级融合方法。与晚期融合类似,人工建议是通过利用来自两个子网的特征图来生成的。然后将方案作为两个子网络的输入,分别产生检测结果。最后,对两个子网络的检测分数和边界盒回归进行平均,得到最终的检测结果。与Score Fusion I相比,这种执行方式在训练和测试中更有效。

结果对比

在这里插入图片描述

  • 与MRO相比,MRI更适合于测量检测性能;
  • 经过适当的调整后,这6种融合结构与默认设置相比都得到了显著的改善;
  • 在6种融合架构中,Halfway Fusion和Score fusion I的MRI表现优于其他融合架构,分别达到17.57%和17.43%。Halfway Fusion的优异表现得益于其在语义信息和低级线索之间的平衡,而Score fusion I的优异表现则得益于其梯级设计。融合晚期和融合II评分仅比前两者低1%,分别为18.89%和18.43%。在全连通层融合两个子网络时会丢失空间对应关系,导致后期融合性能稍差。对于Score Fusion II来说,缺乏级联阶段或缺乏足够的监督可能是其表现较差的原因,与Score Fusion i相比,输入融合和早期融合表现最差,可能是由于缺乏语义信息。
  • 最后的发现是关于不同光照条件下颜色和热形态之间的互补。
  • 六种融合是被模型都未能超越红外图像识别的结果,这表明彩色图像实际上是造成了混淆,而不是为检测提供帮助。

Illumination-aware Faster R-CNN

在这里插入图片描述

IAF R-CNN由三部分组成:主干多光谱Faster R-CNN、光照度估计模块和最终的门控融合层。采用多光谱快速R-CNN分别对彩色图像和热图像进行检测。照明估计模块的设计是对给定图像的照明条件进行测量。最后,为了实现准确和鲁棒的检测,引入了一种融合的门控融合层来融合颜色和热检测结果,该融合层考虑了估计的光照量。

光照评估

现有的基于卷积神经网络的方法主要通过两种方法来解决颜色和热模的融合问题。一种方法是在评分级别上以同等权重合并两个流,而不管这两种模式的贡献。这种策略在光线不好的情况下尤其容易出错。另一种是将两个流融合在一个特定的层上,期望网络自动学习加权参数。然而,无论是图像分类还是目标检测模型都被调整为对光照变化不敏感,这使得它们的参数不适合绘制权重决策。为了更好地处理融合问题,需要一种考虑光照条件的加权机制。

Key & Range

-在这里插入图片描述

Kopf等人[52]认为,图像的亮度特性可以通过图像的键(平均亮度)和范围来测量。具体来说,我们将key确定为图像中像素值的平均值,而range则是第90和第10个像素值百分比的差值。最后,关键值和范围归一化为区间[0,1]。关键值和范围在韩科院数据集集中的分布如图6所示。我们可以看到,夜间图像的键值和范围值一般都比白天图像要小,但是白天和夜间图像在这两个度量上存在一定的重叠。

IAN

我们也考虑引入一个网络,表示为IAN,来估计照明条件。由于数据集中没有ground-truth标签,我们使用粗糙的昼/夜标签来代替训练IAN。输入的彩色图像被调整为5656像素,以方便训练和测试效率。IAN由两个包含3个3滤波器的卷积层组成,每个卷积层之后是一个ReLU层和一个最大的22池化层,以及随后两个完全连接的层,分别有256个和2个神经元。在第一个全连接层之后插入一个比率为0.5的Dropout层,以缓解过拟合。通过最小化预测与标签之间的softmax损失来训练网络,softmax得分作为输出照度值。

值得注意的是,我们并没有重用multispectral Faster R-CNN中计算的特征,而是直接从彩色图像中估计光照值,原因有两个。

  • 首先在图像分类任务上对主干网络进行预训练,然后在目标检测任务上进行微调,但两个任务中的模型都适应于光照变化的不变性。
  • 另一个原因是我们在训练中采用了以图像为中心的采样策略,而学习光照估计需要大量的小批量来保证收敛性。我们通过实验确定IAN是照明估计最有效的方法(详见5.3节),我们将在最终的管道中采用这种方法

在这里插入图片描述

门控融合

反之,在光照条件较差的情况下,热子网络的权重应该占主导地位,而颜色子网络的权重应该不重要,因为颜色图像提供的干扰大于帮助。考虑到这些观察结果,我们仔细设计了一个基于估计光照值iv[0,1]定义的门函数,如下所示。

在这里插入图片描述

其中α和β是两个可学习参数。我们将w_color = w和w_thermal = 1-w作为融合这两种模式的权重,其中w_color和w_thermal表示依靠颜色和热来预测给定图像中行人实例的权重比例。

每个子网络产生两个输出:置信分数s = (s0,…, sK)大于K+1类,且界框回归偏移量t = (t1,…, tK)的每一个K对象类别。因此,给定颜色子网络的scolor和tcolor以及热子网络的sthermal和tthermal,得到最终的检测结果
在这里插入图片描述

最优化

IAF R-CNN的训练过程主要分为两个阶段。在第一阶段,我们只训练trunk Faster R-CNN,通过最小化以下7项的联合损失函数
在这里插入图片描述
L_rpn 为 proposal损失,L_color 与 L_thermal 分别对颜色子网络和热子网络的检测损失。这两个损失与Faster RCNN模型的损失相同。

继[51]之后,我们还介绍了关节损失函数中的两种人分割损失。L_color_seg和L_thermal_seg是图像级逐像素损耗。设G(x,y), P(x,y)分别为ground-truth和predicted segmentation masks,定义图像级逐像素损耗为
在这里插入图片描述
其中H和W是特征图的大小,l是交叉熵损失

Lcolor segroi是(4)roi级别的逐像素损失。设Gx,y,c, Px,y,c分别表示第cth roi的ground-truth和预测的分割掩码,roi级逐像素损失可计算为
在这里插入图片描述
其中C为roi的个数,其他符号与Lseg保持一致。在我们的实验中,我们设λi = 1。在第二阶段,我们通过最小化损失函数L = Lfinal dn来优化门控函数中的权重参数,其中Lfinal dn是在最终检测上定义的检测损失。在这一阶段,我们只传播回门控融合层,因为完全的反向传播并没有进一步的改进。

在这里插入图片描述

在这里插入图片描述
比较不同加权机制:平均加权、硬0-1加权和光照感知加权以及光照估计方法Key、Range和IAN的检测性能(reasonable-all、MRI)
为了进一步证明所提出的IAF R-CNN的有效性,我们在图10中展示了几个检测样本。两个样本是白天图像,另外两个是夜间图像。第一列为输入对图像,其余三列为ACF+T+THOG[12]、half Fusion Faster R-CNN[18]、Fusion RPN + BF[19]和IAF R-CNN的检测结果。红色矩形和绿色矩形分别描述了地面真值边界盒和预测边界盒。给出了FPPI - 1的检测结果。我们可以看到,在一些具有挑战性的情况下,在不同光照情况下,IAF R-CNN可以获得优于ACF+T+THOG的检测结果,半融合速度更快的R-CNN和融合RPN+BF。
在这里插入图片描述
多光谱行人检测结果与其他方法的比较。第一列显示输入对图像,其中包含用红色矩形描述的ground-truth注释。其余列分别为ACF+T+THOG [12], half Fusion Faster R-CNN [18], Fusion RPN + BF [19], IAF R-CNN的检测结果(见绿色矩形)。与其他三种方法相比,我们的IAF R-CNN获得了更好的整体检测精度。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值