IAF R-CNN：针对多光谱行人目标检测的光照感知Faster R-CNN

最新推荐文章于 2024-07-03 01:00:00 发布

Change_ZH

最新推荐文章于 2024-07-03 01:00:00 发布

阅读量4.7k

点赞数 8

分类专栏：深度学习文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_36449741/article/details/106524035

版权

深度学习专栏收录该内容

60 篇文章 53 订阅

订阅专栏

📝论文下载地址

[论文地址]

👨‍🎓论文作者

Chengyang Li, Dan Song, Ruofeng Tong, Min Tang State Key Lab of CAD&CG, Zhejiang University, Hangzhou, Zhejiang, China

📦模型讲解

[背景介绍]

下图是其他论文展示的针对行人检测使用多光谱数据的重要性。使用的是KAIST数据集，这是一个行人检测数据集，共4类行人，每张图片都有配准对齐的可见光数据和红外图像数据。如下图所示，左侧和中间的两对图中由于光照条件较差，在可将光图像中的行人不明显，而红外图像中的行人比较明显。最右侧的一对图像中，可见光相对与红外图像中的人是更明显的。图中的框是检测结果，绿色为检测成功的框，黄色标识未检测出的真实框。可以看出，不同的数据上网络的性能是有很大的影响，这也是为什么要做多光谱数据的目标检测的原因。

[论文解读]

作者提出了IAF R-CNN网络用与多模数据的行人目标检测，网络可以根据不同数据的光照条件给不同数据的特征图赋予不同的权重，如下图所示，通过根据照明条件合并两个子网的输出获得最终的检测结果。左图：在良好的照明条件下，彩色子网的权重高于热子网的权重。左图在良好的照明条件下，RGB的权重高于红外的权重，RGB比红外贡献更多。右图在恶劣的照明条件下，红外的权重接近1。因此，最终结果以红外为主导。

[FasterR-CNN用于多光谱行人目标检测]

作者比较了六种融合方式如下图所示，（a）输入融合，（b）早期融合，（c）中期融合，（d）后期融合，（e）置信度融合Ⅰ和（f）置信度融合Ⅱ。之前的[论文]中提到了其中的四个，其他两种融合结构输入融合和置信度融合Ⅱ。

[融合结构]

①输入融合
在将RGB和红外图像输入网络之前，先对其进行通道叠加。这是将Faster R-CNN从单一RGB模态到RGB红外多模态的最直接方法，因为输入通道的增加，仅第一个卷积层需要修改。
②早期融合
通过首先将两个backbone的第一层卷积层的特征图和通道叠加随后通过网中网（NIN）降维。融合之后的层也可以使用预训练的VGG-16初始化。
③中期融合
通过类似的特征图通道叠加和基于NIN的降维，在第四次卷积之后将RGB和红外backbone合并在一起。
④后期融合
后期融合是一种深层融合，它将RGB和红外backbone中的最后一个全连接层通道叠加。两个backbone的最后卷积层通道叠加后的特征图上构建候选区域。
⑤置信度融合Ⅰ
置信度融合Ⅰ通过两个backbone分别生成候选框和检测。然后将检测结果送到另一个网络以重新计算置信度。最终检测是通过等权重相加合并两阶段检测置信度置信度。
⑤置信度融合Ⅱ
置信度融合Ⅱ是置信度决策级的非级联融合方式。与后期融合类似，通过利用来自两个backbone的特征图来生成候选框。然后，将候选框作为两个网络的输入，分别生成检测结果。最后，将两个网络的检测置信度和边界框取均值得到最后的检测结果，以获得最终检测结果。与置信度融合Ⅰ相比，这种方式在训练和测试方面效率更高。

[其他设置]

①Default setting
主要遵循基于VGG-16模型构建的原始Faster R-CNN，抛弃0.5的anchors ratio以提高训练和测试速度，删除了被遮挡的标签以及高度小于50像素的小目标，从而得到7095张训练图像，共有12790个有效标签。
②Finer feature stride
指去除VGG16最后一个最大池化层，使输出的特征图为从原先步长16提高至步长8。
③Input up-sampling
表示输入上采样两倍后输入网络。
④Include occluded instances
表示训练时包含被遮挡的目标。
⑤Ignore region handling
表示对数据集中困难目标训练时忽略，也就是人工标记时不确定是不是真正目标的标记进行去除。

[多光谱行人目标检测基准]

KAIST基准测试由95328对RGB红外图像对组成，手动注释总计103128个边界框，覆盖1182名行人。在每20帧从视频中采样的2252张图像组成的测试集上评估检测方法，其中白天捕获1455张图像，夜间捕获797张图像。训练的初始过程是每20个视频帧采样一次。最近的方法使用了每个第三帧采样一帧，以从更多的训练数据中受益，这也是作者采用的。

[结果]

作者训练了很多模型进行对比试验， $MR^O$ 表示在原始数据上进行训练的 $M R$ ， $MR^I$ 表示在清洗数据上进行训练的 $M R$ 。

① $MR^I$ 比 $MR^O$ 更适合于提升检测性能。将 $MR^I$ 使用改进的注释）与 $MR^O$ （使用原始注释）进行比较，作者发现 $MR^I$ 的值通常比 $MR^O$ 的值低大约10％至15％。当 $MR^I$ 保持较高水平时，这两个指标的总体排名趋势是一致的。但是，当 $MR^I$ 低于25％时， $MR^O$ 的指标似乎失去了辨别力，其值在30％到35％之间波动。在对原始测试注释进行仔细检查后，作者发现存在许多未标记的行人实例，如下图所示，第一行是原始注释，第二行是改进注释。随着行人检测器的改进，检测到未在原始注释中标记的实例，然后在使用原始注释进行测量时被视为假阴性，这表明 $MR^O$ 不再适合测量检测性能。因此，在本文的其余部分中，仅根据 $MR^I$ 测试检测性能。

②经过适当的调整，与默认设置相比，所有六种融合架构均获得了显著改善， $MR^I$ 平均降低了10.41％， $MR^O$ 平均降低了7.44％。仅使用更精细的特征或输入上采样即可获得大约6％的效果提升，但是将两者结合使用并不会显示出进一步的改善。考虑到训练和测试速度，保留了更精细的特征，放弃了输入上采样。将剩下的两个调整组合可以使 $MR^I$ 进一步提高5％。
③在六种融合架构中，中期融合和置信度融合Ⅰ的表现优于其他，在 $MR^I$ 方面分别达到17.57％和17.43％。中期融合的优越性能可能得益于它在深层信息和浅层信息之间的平衡，而置信度融合Ⅰ的性能可以归因于其级联设计。后期融合和置信度融合Ⅱ仅比前两者落后1％，分别为18.89％和18.43％。当在全连接层上融合两个子网时，空间对应关系会丢失，这可能会导致后期融合的性能略逊一筹。对于置信度融合Ⅱ，与置信度融合Ⅰ相比，缺少级联结构或缺乏足够的监督可以解释其性能不佳。输入融合和早期融合的性能最差，这可能是由于缺乏语义信息所致。

④作者的最后发现是关于在不同照明条件下RGB和红外之间的互补。如图4所示，在白天，RGB的检测性能比红外检测的性能稍好。与使用单一模式相比，所有六种融合体系结构均能获得更好的结果，表明RGB和红外信息相互补充。在夜间，由于在晚上看不清RGB，所以红外模态的性能要比RGB的性能好得多。然而，令人惊讶的是，所有六个体系结构都没有超过红外模态的结果，RGB图像在候选框生成实际上会造成混乱，而不是在恶劣的照明条件下为行人检测提供帮助。

[光照感知的FasterR-CNN]

上图说明了光照感知的Faster R-CNN（IAF R-CNN）的总体架构，该框架是基于Faster R-CNN检测框架开发的，并讨论了实验结果，IAF R-CNN由三部分组成：多光谱backbone，光照预计模块和最终门控融合层。采用多光谱Faster R-CNN分别从RGB和红外图像完成单独的检测。光照估计模块用于对图像的光照的估算。最后，为了实现准确而鲁棒的检测，引入了门控融合层以融合RGB和红外检测结果，从而将估计的光照强度考虑在内。
对于多光谱Faster R-CNN模型，作者采用了置信度融合Ⅱ的体系结构，但删除了原始的平均加权层，从而使该阶段的输出可以从分类置信度和边界框两个模式中分别检测出来坐标。并且作者使用了行人掩码作为附加的监督。因为他们在基于RGB图像的行人检测中展示了其优势。为了实现，分割模块只是一个1×1卷积层。对于给定输入图像，作者考虑了三种不同的恒联光照的方式，两种是传统方法，一种是深度网络方法。
通过光照感知网络（IAN）预测光照条件是最有效的。IAN由卷积，全连接和最大池化层组成，将RGB图像作为输入并提供照明条件度量。对于最后门控融合层，作者使用在光照度量上定义的门函数来计算两种模态的融合权重，这将用于对两种模态的检测结果进行加权以获得最终结果。

[光照估算模块]

给定一个图像对，可以从RGB图像估计光照，因为红外图像对照明变化不太敏感。形式上，照度估计可以定义为映射 $I \to i v$ ，其中 $I$ 表示输入图像， $i v \in [0, 1]$ 代表照度值。这是一项非琐碎的任务，因为光照条件是一个模糊的概念，并且行人数据集中没有真实光照标签。我们在实验中考虑了三种不同的光照度量方法。
①Key&Range
图像的亮度特性可以通过其Key（平均亮度）和范围来测量。将Key确定为图像中的平均像素值，而Range是与Key相差第90个像素值和第10个像素值之差。最后，将Key和Range标准化为间隔 $[0, 1]$ 。其实这体现了图像的一个均值和方差。
在下图中说明了KAIST训练集中的Key和Range的分布。可以观察到，对于Key和Range，夜间图像通常具有比白天图像小的Key，但是白天图像和夜间图像之间存在一定的重叠。

②IAN
作者还考虑引入一个称为IAN的网络来估计光照条件。由于数据集中没有真实标签，因此使用粗略的昼/夜标签来训练IAN。
输入的RGB图像分辨率为56×56像素。IAN由3×3卷积核的两个卷积层组成，每个卷积层之后是ReLU层和2×2最大池化层，以及两个256和2个神经元的全连接层。在第一个全连接层之后插入概率为0.5的Dropout，以缓解过度拟合的情况，网络输出对输入图片的白天、夜间两个类别的概率值。通过最小化预测和标签之间的softmax损失来训练网络，并将分类的softmax分数用作输出光照值。

[门控融合模块]

引入门控融合层可有效地融合RGB和红外，以用于行人检测。作者设计了一种光照感知加权机制，可以根据光照条件为RGB和红外数据生成融权重。RGB和红外模态的融合权重应满足以下约束。在良好的照明条件下，RGB数据特征的权重应该较高，而红外数据特征的权重不应太小，以便最终的检测结果将从两种数据中受益。相反，在恶劣的照明条件下，假设红外特征的权重占主导地位，而RGB特征的权重则认为不重要，因为RGB图像提供的干扰可能多于帮助。考虑到这些观察，作者设计了在估计光照 $i v \in [0, 1]$ 上定义的门控功能。
$w=\frac{iv}{1+\alpha \exp(-\frac{iv-0.5}{\beta})}$
其中 $α$ 和 $β$ 是两个可学习的参数。我们将 $w^{color} = w$ 和 $w^{thermal} = 1-w$ 为融合这两种模态的权重，其中 $w^{color}$ 和 $w^{thermal}$ 分别表示RGB和红外数据的贡献程度。每个数据的网络分支都会输出相同尺寸的分类置信度以及boundingbox的回归结果，经过融合后：
$s^{final}=w^{color}×s^{color}+w^{thermal}×s^{thermal}\\ t^{final}=w^{color}×t^{color}+w^{thermal}×t^{thermal}$

[优化过程]

IAF R-CNN的训练过程包括两个主要阶段。
①第一阶段
通过以下七个项的联合损失函数最小化来训练Faster R-CNN：
$\mathcal L=\lambda_1 \mathcal L_{rpn}+\lambda_2 \mathcal L_{dn}^{color}+\lambda_3 \mathcal L_{dn}^{thermal}+\lambda_4 \mathcal L_{seg}^{color}+\lambda_5 \mathcal L_{seg}^{thermal}+\lambda_6 \mathcal L_{seg_{roi}}^{color}+\lambda_7 \mathcal L_{seg_{roi}}^{thermal}$ $\mathcal L_{rpn}$ 是区域生成损失， $\mathcal L_{dn}^{color}$ 、 $\mathcal L_{dn}^{thermal}$ 是检测损失，与Faster R-CNN相同。另外作者还在联合损失函数中引入了两种实例分割的损失。 $\mathcal L_{seg}^{color}$ 和 $\mathcal L_{seg}^{thermal}$ 是图像级像素分类损失。令 $G_{x,y},P_{x,y}$ 分别为真值和预测分割掩码，图像级像素分割损失定义为：
$\mathcal L_{seg}=\frac{1}{H×W}\sum_{(x,y)}l(G_{x,y},P_{x,y})$
其中H和W是特征图的尺寸， $l$ 是交叉熵损失函数。 $L^{color}_{seg_{roi}}$ 和 $L^{thermal}_{seg_{roi}}$ 是ROI级每像素损失。令 $G_{x,y,c},P_{x,y,c}$ 分别代表第c个ROI的真值和预测分割掩码， $C$ 是ROI的总数，则roi级像素损失可计算为：
$\mathcal L_{seg_{roi}}=\frac{1}{H×W×C}\sum_{(x,y,c)}l(G_{x,y,c},P_{x,y,c})$
②第二阶段
通过最小化损失函数 $\mathcal L= \mathcal L^{final}_{dn}$ , $\mathcal L^{final}_{dn}$ 是在最终检测中定义的检测损失。在此阶段，作者仅训练网络的head。