Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

最新推荐文章于 2022-12-10 09:00:00 发布

低吟浅笑

最新推荐文章于 2022-12-10 09:00:00 发布

阅读量1.3k

点赞数 1

分类专栏：多光谱行人检测文章标签： cnn r语言深度学习

本文链接：https://blog.csdn.net/qq_37424778/article/details/121881041

版权

多光谱行人检测专栏收录该内容

11 篇文章 22 订阅

订阅专栏

Pattern Recognition（CCF B）引用量：65 2018/03/01

浙江大学

贡献:主要提出了illumination-aware weighting mechanism，根据光照强度对two steams 进行融合（ECCV2020的那个光照感知模块就是来自这篇文章，Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems ，代码我也看过了，keras，不好借鉴）。同时还生产segmentation，但仅作为了一种联合优化，这里是否可以作为其他先验（类似，Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation ）。

问题：关于网络训练，从整个文章来看，作者分为两次，首先是整体faster r-cnn的训练，然后是gated function的训练。由于需要使用到分类网络，应该需要对分类网络提前进行训练（我猜的）。所以应该是三次，Faster R-CNN训练，illumination-aware network训练，两者通过gated function合并，进行fine-tuning。还有一点问题，对于分割任务，需要mask label，但是KAIST整个文章压根都没提到segmentation和mask，也就是说没有分割标注，后续还应关注（涉及segmentation和detection的结合）。

ideas：通过网络来学习光照亮度需要用到label，可能的确准确度要高一些，但这个流程也很繁琐和复杂（主要是这个网络拼一块，实施有难度，从而推动考虑能否考虑直接获取光照的方法。避免了网络分支和重复训练的问题。最近学习了以一下互信息的相关知识，不知道能否直接从这里做突破。常规的传统方法也有获取光照亮度）。考虑如何结合segmentation，弄懂大家的segmentation怎么做的。2021/5/1

Abstract

多光谱行人检测比RGB更有效，尤其在恶劣情况下（暗光）。然后，如何有效融合两种方式仍缺乏研究，，在本文中，深入比较了六个不同的融合架构，并分析了它们的适用性，确保得到相当SOTA的检测性能。此外，我们发现利用color-thermal image的行人检测置信度与光照条件相关。考虑这点，我们提出了一种照明感知的Illumination-aware Faster R-CNN（IAF R-CNN）。详细的，IAF R-CNN会给出输入图像的照明亮度。然后，我们通过光照值定义的门函数来合并color-thermal image。KAIST数据集上验证了IAF R-CNN的有效性。

图一 illumination-aware weighting mechanism。color和thermal子网分别检测行人。根据照明条件合并两个子网的输出获得最终结果。左图照明条件好，右图照明条件差。图中不涉及RPN。

1.Introduction

主要围绕光照问题。直观上。color和thermal是互补的，提供了不同的视觉线索。然后，有一个问题，怎么使用每种模态。在良好的照明条件下，color和thermal相辅相成，在恶劣的照明条件下，仅用thermal是更好的选择，并与color融合不提高性能。

现有解决color和thermal融合问题的主要通过两种方式。一个是以相同权重合在score level合并two streams，不管它们的贡献。在不利光照下，容易出错。另一个是在网络的特定层进行融合，期望网络自动学习加权参数，但分类/检测模型对光照变化不敏感，使得参数不适合加权决策。更好考虑融合问题，需要引入照明条件。

提出IAF R-CNN，图一显示加权机制（illumination-aware weighting mechanism）。给定color-thermal image和从RPN中生成的行人候选（图中省略）。Color 和 thermal针对每个proposal输出单独的检测置信度和边界框回归。最后，通过illumination-aware weighting mechanism将two stream合并分为两步。第一，照明测量（）。第二，利用门函数生成照明感知权重。IAF R-CNN = multispectral Faster CNN + weighting parameter。

贡献：1>对Faster R-CNN派生的六种融合结构进行深入比较，并指出它们的关键适应方案。只要合适的调整，Faster R-CNN会取得显著改善，与最新方法匹配。（2）提出IAF R-CNN model，

整合color sub-network，thermal network到一个统一的框架中。（3）提出一种illumination-aware weighting mechanism提高color-thermal的贡献。使用提出的IAF R-CNN，在KAIST上取得SOTA。

2.Related Work

Convnets for pedestrians detection.：介绍行人检测的发展

Multispectral pedestrian detection.：介绍多光谱行人检测的发展

Network fusion problem.：介绍网络融合的问题，通过其他领域的融合问题进行引入。领域也许不同，但融合思路可以借鉴。

3.Faster R-CNN for multispectral pedestrian detection

不同网络阶段的功能表现出不同的焦点，较低层具有更精细的视觉细节，高层有更丰富的语义。针对Faster R-CNN进行input fusion，early fusion，halfway fusion，late fusion，score fusion I and score fusion II，如图2所示。本文基于VGG-16架构构建网络，并使用ImageNet数据集预训练权重初始化网络。对行人检测的几种潜在方法进行了探讨。

图2 a-f分别展示input fusion，early fusion，halfway fusion，late fusion，score fusion I and score fusion II（注：子图的顺序）。

3.1 Architecture

Input Fusion：直接在输入端进行cat。

Early Fusion：第一个卷积块后进行cat。

Halfway Fusion：通过NIN降维。

Late Fusion：high-level的融合，在最后的FC部分进行融合。将conv5进行concatenate，输入RPN。

Score Fusion I: 两个子网分别生成proposals和detections，然后将检测结果馈送到另外一个子网中重新计算置信度。最终检测将two-stage的置信度得分进行合并，可认为是两个子网的级联设计（这种方式有点意思，但看样子，作者不推崇）。

Score Fusion II：类似后期融合。将来自两个子网的bounding box regression和detection scores取平均值，获得最终的检测结果（最简单的模型ensemble方式）。

点评：从融合时机分为，前中后三种。从融合级分为输入级，特征级，决策级。前中后均有各自的优点和缺点，所以目前使用较多的是层层融合，避免考虑融合时机。但层层融合，网络收敛难度大，复杂性高，浪费计算资源（前，中，后融合都可看作是层层融合的特例）。输入级需要考虑模态对齐问题，特征级需要考虑特征对齐，决策级本质是一种模型的ensemble。

3.2 Adaptation

Default setting：主要遵从Vgg-16搭建的Faster R-CNN配置。目标是站立的行人，抛弃了0.5的anchor ratio以促进training and testing speed。排除被遮挡或被截断的行人和高度小于50的像素，得到了7095个training images，共12790个有效实例。在训练过程中，采用图像中心训练方案，并使用1张图像和120随机采样的anchor组成mini-batch，正负比例为1：5。Learning rate=0.001，在4个周期后除以10，然后在6个周期后终止训练。

Finer feature stride：在默认设置下，VGG-6的步幅为16 piexels，这对于更小的行人实例太粗糙。删除了最后一个最大池化层，提供了8 piexels的精细特征。

Input up-sampling：对输入图像执行上采样是处理粗糙特征步幅的另一种策略。对输入图像执行2倍上采样。

Include occluded instances：训练包括被遮挡的实例。

Ignore regoin handling：KAIST有的区域无法确定是否包含行人。由于我们仅采用最小高度为50 pixel的行人实例进行训练，可能忽略小的实例。确保训练不对这些区域采样。

3.3 Multispectral pedestrian detection benchmark

KAIST（唯一良好对齐的color-thermal datasets），CVC-14（对齐性差）

描述了半天KAIST，这。。。。

对于评估，每张图在范围[10-2,100]的false positives（FPPI）平均the miss rate（MR）用作检测精度的度量。

将MR0和MR1表示原始注释和改进注释。

表1 具有不同适应性设置的六种体系结构的检测性能（就MR O和MR I而言）。对于每种设置，我们还报告所有体系结构的平均性能及其相对于基线的改进。

3.4 Results

表1列出检测性能的逐步比较，得到下面分析。

1.MR1比MR0更适合测量检测性能。MR1通常低于MR0大概10%到15%个点。当MRl高得时候，发现总体排名趋势是一致的。但是，当MRl低于25%，MR0得指标失去了辨别力，因为其值在30%到35%之间波动。通过仔细检测原始测试注释，发现存在许多未标记的行人实例。故，仅根据MR1来测量和报告检测性能。

2.经过适当的调整，与默认的设置相比，六种融合结构获得了显著改进，MRl和MR0平均降低10.41%和7.44%。两者组合不会显示进一步的改进。

3.六种结果中，halfway fusion和score I 表现更好。

4.最后发现在不同照明条件下color和thermal之间的互补。与单一模态相比，所有六个融合体系都获得了更好的结果，表明color和thermal相互补充。然而，六个体系结构都没超过thermal的结果，表明color在恶劣照明条件下引起了混乱。

图5 双子网分别生成边界框和得分，利用照明加权模块进行融合。紫色是segmentation，仅在训练阶段使用。

我就说前面咋这么水。。。才刚开始啊

4.illumation-aware Faster R-CNN

4.1 Overall architecture

图5展示了IAF R-CNN的总体架构，基于Faster R-CNN检测框架和第3节中的实验结果。IAF R-CNN包括三部分：Faster R-CNN，侧面照明估计模块，以及最后的门控融合层。利用Faster R-CNN分别从color和thermal生成单独检测。照明估计模块用于给定图像的光照情况，最后引入门控融合层考虑估计照明量去融合color和thermal实现鲁棒检测结果。

应用score fusion II 作为IAF Faster R-CNN的主要结构。但移除了平均加权层，使两者分开检测。在分类置信度得分和边界框坐标方面，选择这种融合类型有以下两个原因：对比卷积层或完全连接层的融合，得分级的融合在语义和含义上都更加明确，更好加权。对比score Fusion I，Score Fusion II 删除了额外的级别阶段，更加简洁。此外，使用pedestrians masks作为附加监督信息[51]，因为他们在color image的行人检测中证明它的优点。为实现，分割模块只是一个1x1conv layer。对于给定的输入图像，考虑三种不同方法测量照明条件，两种是传统方法，一种是网络方法。发现illumination-aware Network（NIN）是最有效的。它由卷积，全连接和最大池化组成，将彩色图像作为输入并提供照明条件度量。对于gated fusion layer，计算两种模态的权重用于融合。

4.2 illumination Estimation

thermal对于光照显示不敏感，故使用RGB估计照明条件。形式上讲，照明估计可定义一种映射I->iv，其中，I为输入图像，𝑖𝑣∈01 表示光照值。但这是一个困难任务，数据集没有真实的照明条件标签（具体的照明值没有，仅有白天/夜晚的标签）。

Key & Range. 图像的亮度特征可通过key（average luminance）and Range测得。详细说，key定义为图像的平均像素值，而range为90th和10th像素值百分数之间的差异。最后，将key和range归一化为[0,1]。

Key和Range的分布如图6所示，nighttime images通常有着相对白天更低的值，但用这种方法对白天和夜晚有一定重叠。

IAN. 考虑引入IAN网络来估计照明条件，使用day/night label训练IAN。

RGB resize为 56x56，IAN包含2个3x3的卷积层，之后是Relu+2x2 max pooling，最后是2个伴随256和2个神经元的FC。在第一个FC层后插入dropout，缓解过拟合问题。网络最小化预测和label之间的softmax loss，并将day类作为输出照明值（illumination value）（网络本质是一个二分类网络，学习日夜分类，将白天输出作为illumination value，后面通过illumination value生成权重，将权重用于网络融合训练）（注：这个其实和2020年的那篇解决不平衡问题的文章的顶会结构完全一样，卷积层和FC层的个数都一样）。使用RGB预测光照亮度的两个原因，第一，trunk network在imagenet上预训练并对目标检测fine-tuning，但是，两个任务的model都适合光照变化的不变性。第二，采用了“image-centric”的采样策略，学习照明估计需要大量的minu-batch以确保收敛。

4.3 Gated fusion

引入gated fusion layer有效地将color和thermal结合起来。设计illumination-aware weighting mechanism根据照明条件生成融合权重。精心设计gated function定义𝑖𝑣∈01如下（通过illumination value来计算权重）：

𝑤=𝑖𝑣1+𝛼exp−𝑖𝑣−0.5𝛽 （1）

其中，𝛼和𝛽是两个可学习参数。定义Wcolor=w，Wthermal=1-W，表示我们依赖color和thermal预测给定图像中行人的置信度。

两个子网生成两个输出：（K+1）类的confidence score s=（s0， sk）和k个目标的bounding box offset t=（t1，，tk）。scolor和tcolor是color sub-network。最后的检测结果为：

𝑠final =𝑤color ×𝑠color +𝑤thermal ×𝑠thermal 𝑡final =𝑤color ×𝑡color +𝑤thermal ×𝑡thermal （2）（3）

4.4 optimization（重要）

训练包括两个主要阶段，在第一个阶段，通过最小化联合损失函数来训练Faster CNN：

ℒ =𝜆1ℒ𝑟𝑝𝑛+𝜆2ℒ𝑑𝑛𝑐𝑜𝑙𝑜𝑟 +𝜆3ℒ𝑑𝑛𝑡h𝑒𝑟𝑚𝑎𝑙 +𝜆4ℒ𝑠𝑒𝑔 𝑐𝑜𝑙𝑜𝑟 +𝜆5ℒ𝑠𝑒𝑔 𝑡h𝑒𝑟𝑚𝑎𝑙 +𝜆6ℒ𝑠𝑒𝑔𝑟𝑜𝑖 𝑐𝑜𝑙𝑜𝑟 +𝜆7ℒ𝑠𝑒𝑔𝑟𝑜𝑖 𝑡h𝑒𝑟𝑚𝑎𝑙 （4）

其中，Lrpn是proposal loss，Ldn是detection loss，两者定义同Faster R-CNN。Fllowing 【51】，加入两种行人分割损失。Lseg是image-level per-pixel loss。G和P分别表示Ground truth和prediction，如下：

ℒ𝑠𝑒𝑔=1𝐻×𝑊𝑥𝑦𝑙𝐺𝑥,𝑦,𝑃𝑥,𝑦 （5）

其中，H和W是特征图的大小，而 l 是交叉熵损失函数。ℒsegroi color 和ℒsegroi thermal 是roi-level pre-pixel loss。𝐺𝑥,𝑦,𝑐和𝑃𝑥,𝑦,𝑐分别表示c-th roi的GT和prediction mask，如下：

ℒ𝑠𝑒𝑔𝑟𝑜𝑖 =1𝐻×𝑊×𝐶𝑥𝑦𝑐𝑙𝐺𝑥,𝑦,𝑐,𝑃𝑥,𝑦,𝑐 （6）

其中，C是rois的数量。在我们的实验中，所有𝜆𝑖设置为1。

第二阶段，最小化最终检测损失𝐿𝑑𝑛𝑓𝑖𝑛𝑎𝑙来优化gated function权重，此阶段，仅反向传播到gated fusion layer（完全反向传播没有起作用）（fine-tuning gate function layer）。

5.Experiment

5 .1 Implementation details

使用KAIST的color image，使用KAIST数据集训练集的color image。

6.Conclusion

针对多光谱行人检测进行两方面改进。首先，重视几种多光谱Faster R-CNN架构，证明有效性。然后，提出了illumination-aware Faster R-CNN结构，考虑照明条件将color-thermal sub-network合并。引入照明感知加权机制，自适应融合两个模态。证明IA Faster R-CNN的有效性，尤其是恶劣条件下。未来，计划将激光和多光谱进行融合，进一步提高方法的鲁棒性。

低吟浅笑

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

Pattern Recognition（CCF B）引用量：65 2018/03/01浙江大学贡献:主要提出了illumination-aware weighting mechanism，根据光照强度对two steams 进行融合（ECCV2020的那个光照感知模块就是来自这篇文章，Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems...
复制链接

扫一扫