论文阅读-MLPD:Multi-Label Pedestrian Detector in Multispectral Domain(海康威视研究院实习项目)

项目源码可以看这里:MLPD源码
论文原文地址

论文题目:Multi-Label Pedestrian Detector in Multispectral Domain
翻译成中文是:多光谱域多标签行人检测器
(其实就是设计了一个网络,然后使用多模态进行训练,然后数据集分为RGB图和Thermal(热成像图),但是RGB和Thermal是非完全配准的)

下面就按照论文的章节来分别进行介绍

摘要

  多光谱(RGB和热成像图两种模态)行人识别作为处理恶劣天气情况下的一种有前景的多模态解决方案已被积极研究。但是大多数的多模态方法都是假定所有的输入都是完全重叠的。但是由于传感器的配置的复杂性,这类 数据对 在实际应用中并不常见。
  因此在这篇论文中,作者处理了多光谱行人检测,其中所有的输入数据没有进行配对。为此,作者提出了一种新的单阶段检测框架,该框架利用多标签来学习输入状态感知特征,方法是根据输入图像对的给定状态分配一个单独的标签。
  作者还提出了一种新的增强策略,应用几何变换来合成未配对的多光谱图像。在大量的实验中,作者证明了提出的方法在不同的现实条件下的有效性,如在立体视觉中完全重叠的图像和部分重叠的图像。

介绍

  这一部分就是主要介绍了行人检测的重要性,并且多模态的行人识别在全天状态下的鲁棒性很好。
  然后介绍了KAIST数据集:该数据集提供了完全重叠的RGB和热成像对。但是尽管大多数融合方法优先使用这种完全重叠的数据集,但这种数据集很难在现实应用中使用,因为需要特殊设备获取到完全重叠的两幅图像。
在这里插入图片描述
  然后紧接着作者贴了一张结果图,主要就是将作者提出的方法与现有的方法进行了对比,结果表明,对于成对和非配对的多光谱输入,结果都是最佳的。
(a)完全配对的RGB-Thermal
(b)非完全配对的RGB-Thermal(立体相机)
(c)非完全配对的RGB-Thermal(EO/IR配置)
这里的立体相机拍出来的图片就是这个样子
在这里插入图片描述  从实际角度出发,立体相机被用作一种替代方法,如图1-(b)和图1-(c )所示。与图1-(a)中的传感器系统不同,该系统允许两个传感器之间有一定的距离。然而,由此产生了两个影响融合方法和检测性能的问题。
  第一个问题是图像中存在只有来自一个传感器的信息的非重叠区域。
  另一个问题是由于视差导致的像素级对齐问题。

  那么从这个角度出发,作者解决了现有的大多数多光谱行人检测方法,主要是在多光谱图像完全重叠的情况下进行研究。本论文中将术语“成对图像”定义为完全重叠的图像对,而“未配对图像”定义为部分重叠的图像对,同时包括重叠区域和非重叠区域。
  因为非成对的数据集很难获取,所以作者就使用完全重叠的多光谱数据集来处理图像中的重叠区域和非重叠区域。(大白话讲就是:用成对的数据集去训练,然后得到的模型可以应用到非完全配对的图像)
   为此,作者引入了一些新的方法和训练策略,称为多标签学习,以学习更多的鉴别特征,并提出了一种半无配对增强随机生成无配对输入。通过将所提出的方法应用于基于SSD的baseline,我们显示了在配对和非配对条件下的显著改进,并具有快速的推理时间。
   作者的贡献如下:
1)我们解决了以往融合方法的约束,这些约束阻碍了它们在现实应用中使用,并引入了在无配对条件下的多光谱行人检测的新视角;
2)在理想和实际的图像条件下,我们提出了一种基于多标签学习和一种新的增强策略的广义多光谱行人框架;
3)我们在各种不配对的情况下测试了所提出的方法,它取得了与最先进的方法相比竞争和更好的结果。

RELA TED WORKS这部分就不写了,直接跳下部分

METHODS

作者提出了一个广义的多光谱行人检测框架,包括三个新的贡献,
共享的多融合层
多标签学习
半不配对增强方案
在本节中,将解释每个贡献的细节:

网络结构

首先作者设计的网络结构是基于SSD的网络结构。

这里先贴一个 SSD 的网络示意图:
在这里插入图片描述

  • SSD先通过卷积不断进行特征提取,在需要检测物体的网络,直接通过一个3*3卷积得到输出,卷积的通道数由anchor数量和类别数量决定,具体为(anchor数量 × (类别数量+4))。
  • SSD对比了YOLO系列目标检测方法,不同的是SSD通过卷积得到最后的边界框,而YOLO对最后的输出采用全连接的形式得到一维向量,对向量进行拆解得到最终的检测框。

下面是本论文中的网络示意图。
在这里插入图片描述   作者提出的网络结构是一个类似SSD的网络,由两个独立的分支(RGB和Thermal)组成。在第五层卷积Conv5之前,它们使用独立的卷积层。然后它们就共享剩下的卷积,直到最后。
  在多模态模块中,每个模态的特征被串联起来(concat,通道数的合并),接下来使用其他卷积层来减少通道的数量。随后输出信号被送入检测头。
本论文的框架和SSD框架有所不同,主要表现在以下三点:
  1)我们采用这种架构进行多模态融合;
  2)我们利用多标签学习进行培训;
  3)采用评分函数法进行最终预测。
如上图所示,该模型由 单模态部分、模态共享部分 以及 检测头组成,一般来说,要将每个模态部分的特征映射进行融合,然后将这些特征映射输入到模态共享部分,生成检测头的输入特征如下:
在这里插入图片描述

式中φF used为融合特征图。f spc R、f spc T和f shr分别表示给定RGB、热输入图像的模态特异性部分和模态共享部分。IR和IT指的是RGB和热域对应的图像,(⊕)表示拼接。

我们观察到,检测头的输入特征通常会失去模态特定信息。我们认为,在给定合并特征输入的情况下,模态共享部分不保留每个模态的信息。因此,我们引入了一种融合层的再参数化技术。 我们没有将连接的特征图提供给共享部分,而是将每个模态塔(modality tower)(高斯金字塔?FPN)的特征图分别 提供给共享部分,并将它们合并后再送入检测头。
检测头的输入特征可以通过添加几个融合层来保持特定于形态的信息。重新参数化是按照 下面式子中的描述进行的,下面式子与上式相反:
在这里插入图片描述

其中式中的F为拟融合层。在将融合特征输入检测头之前,我们将融合层设计得尽可能轻,以便实时应用。如网络结构图所示,融合层是基于一个带有激活函数的卷积层。

多标签输入

多标签学习方法分配更详细的类标签,以鼓励模型学习更多的鉴别特征。在以往的大多数融合方法中,都使用完全重叠的图像对作为输入图像,从而在RGB模态和热成像模态都能定位和看到所有的目标。然而,当其中一个输入数据有一些问题时,这些方法将无法检测目标,例如传感器故障、断电或饱和。
为此,我们在多光谱行人检测框架中引入了多标签学习策略。

在这里插入图片描述表示一个bounding box 的 RGB 标签向量和 Thermal 向量。应用半无配对增强约束后,标签向量yR, yT取决于输入状态。更具体地说,为分配代表输入对状态的多标签向量,定义标签向量的三种情况:
1)y1 = [1,0]
2) y2 = [0,1]
3) y3 =[1,1]。
基本上,当行人只在任意一种模式中可见时,标签向量被分配为 y1或 y2,当对任一模式应用半不配对增强时就会发生这种情况。同样,当行人在两种模式下都可见时,它被标记为y3。注意,在训练模型时,这些标签向量被用作输入状态。通过该策略,模型可以根据输入对的状态自适应生成特征映射,从而在配对和非配对的情况下都能鲁棒地检测目标。

半不配对增强(Semi-Unpaired Augmentation)

获得真实的非配对数据集是一个挑战。因此文章中提出了一种简单而有效的方法来应对这种情况,即应用一种简单的数据增强策略。称为半不配对增强。
如前面所述,该论文的主要目标是检测框架在配对和非配对情况下的通用性。也就是说,该模型可以区分行人受到了哪一种形态的影响。为此,我们从成对的多光谱图像中生成未配对的图像。为了防止增强图像的失真,我们只使用几何变换,如水平翻转(在深度学习中经常应用图像旋转进行图像增强。图像旋转一般分为两种,第一种要保持图像大小,但是会丢失部分图像信息;第二种是根据旋转角度建立大小变化的新的图像,这可以保持图像信息的完整性。)和随机调整大小的裁剪。更具体地说,水平翻转独立地应用于每个模态,概率为0.5。

类似地,随机调整作物大小的概率为0.5。换句话说,增强技术以0.75的概率打破了这对组合。注意,我们将该技术独立地应用于两种模态,因此所有通过几何变换增强的boxes都被用作前面定义的多标签的基础真理。

优化(Optimization)

正如前面提到的,φi为进给检测头的融合特征图。检测头以多个不同分辨率映射的融合特征作为输入,检测不同大小的行人。级联特征映射(φ*)定义如下:
在这里插入图片描述然后我们定义ˆyR和ˆyT,分别指向同一个边界框对应的置信得分向量,如下所示:
在这里插入图片描述式中f cls和σ分别为分类层和sigmoid函数。预测评分通过取同一边界框对应的平均RGB和Thermal置信评分来计算。对于多标签分类,我们的网络通过端到端最小化二分类交叉熵(BCE)损失函数来优化。具体公式如下:
在这里插入图片描述对于类别损失的函数为:
在这里插入图片描述

我们的本地化(localization)损失函数与SSD相同。最后损失函数是前两项损失项的加和:
在这里插入图片描述

其中lamda是平衡两个损失项的权重因子。Lloc和Lcls分别表示本地化和分类的损失项。为了简单起见,我们在实验中设λ为1。

因此,这不会影响结果。

实验

实验设置
baseline:SSD in Pytorch
backbone:SSD使用VGG16进行特征提取。后面SSD好像是用VGG19进行特征提取。
因为大多数行人可以通过一个纵向包围盒表达,我们将anchor box的参数设置为长宽比的1/1 以及 1/2,
在这里插入图片描述我们使用在ImageNet上预训练的VGG16进行批处理归一化,从Conv1到Covn5,剩余的卷积核使用从正态分布(std=0.01)中提取的值进行初始化。该模型采用随机梯度下降(SGD)训练,初始学习率、动量衰减和权重衰减分别为0.0001、0.9和0.0005。小批量大小设置为6,输入图像大小调整为512 (H) x 640 (W)。我们在实现中提供了其他超参数。

实验中使用的数据集

KAIST数据集:多光谱行人数据集:由城市环境中的95328个完全重叠的 RGB-Thermal pairs 图像对组成。提供的ground trurh中包含1182个实例中的103 128个行人包围盒。

在实验中,我们遵循train02的标准准则,每2帧抽取1帧,总共25076帧用于训练。对于评估,我们也遵循标准的评估标准test20,每20帧采样1帧,所以所有的结果在2252帧上进行评估,其中白天1455帧,夜间797帧。注意,我们使用成对注释来训练,而使用经过处理的注释来评估。(我理解的是使用成对的注释进行训练,也就是说使用完全重叠的 RGB-Thermal pairs 图像对数据集进行训练,然后评估的时候使用经过处理的(也就是说非成对的进行评估))。

CVC-14数据集
CVC-14数据集是一个多光谱行人数据集,使用立体相机配置拍摄。
该数据集由用于训练集和测试集的7085帧和1433帧组成的灰热对(grey-thermal pairs),并在每个模态中提供单独的注释。与两个传感器机械对齐的KAIST数据集不同,该数据集最初提供的多光谱图像对具有非重叠区域和包含一些错位问题的重叠区域。然而,数据集的作者发布了不包含非重叠区域的裁剪图像对。因此,我们将此数据集视为完全重叠(成对)的数据集,但它仍然存在像素级的不对齐问题。此外,还有一些其他的问题,如不准确的ground truth boxes,不正确的外部参数,和不同步的捕获系统。尽管如此,这个数据集在很多论文中已经被许多人使用,因为它是在立体相机中捕获的少数几个实用数据集之一。

未配对图像的合成数据集
我们引入真实的合成数据集来展示非配对输入(包含重叠和非重叠区域)的鲁棒性。如下图所示,非重叠区域被定义为只有单一模态可见的位置。这个区域是自然的,根据每个RGB和热传感器的相对位置而变化。
在这里插入图片描述
其中,我们定义了最常见的非重叠区域情况,如图3所示。给定KAIST多光谱图像对,我们生成四种不配对情况:
(a ) RGB停电;
(b ) 热成像图停电;
(c ) 侧面停电;
(d ) 周围停电。
这里停电指的是:缺失图像信息。
前两种情况(a)和(b)表示传感器故障的情况,称为传感器故障,其中一个传感器根本不能工作。例如,RGB传感器在夜间能见度较差,热传感器有时会出现交叉。为了产生这样的情况,我们在RGB或热图像中随机填充所有的零值。我们分别在(c )和(d)中模拟立体相机装置和EO/IR配置。

(c )情况可以通过将原始图像垂直分割为三个大小相等的小段来产生。最后,为了生成(d)案例,我们选择一个完全对齐的RGB和热图像,裁剪到更小的尺寸,并将裁剪后的图像插入到原始副本中。裁剪的范围是96像素的顶部和底部,和120像素的左侧和右侧。

我们认为,该合成图像有助于验证多光谱融合模型在未配对条件下的鲁棒性,该合成图像相对于真实世界的未配对图像有很小的差异,因为我们根据真实世界的传感器配置仔细选择所有参数来生成合成案例。

评价指标:使用在[0.01,1]范围内对每幅图像的 FPPI 进行采样的标准对数平均失误率(LAMR)作为代表分数,这是行人检测任务中最常用的指标。这个指标只关注高精度区域,而不是低精度区域,因此它更适合商业解决方案。

KAIST数据集 和 CVC-14数据集 评价

由于本文提出的方法的目标是提高行人检测在配对和非配对情况下的通用性,因此证明配对情况下的优越性是很重要的。结果由下面的表贴出

未配对数据集(Unpaired Datasets)的评估

我们在合成数据集上证明了所提方法的鲁棒性和通用性。这个实验是有意义的,因为之前的大多数融合方法都不能处理两个输入图像都不配对的情况(包括重叠区域和非重叠区域)

消融实验

虽然所提出的方法显示了显著的改进,但我们希望进一步了解每个组件的角色以及它们的组合如何工作。我们进行了一系列的烧蚀实验,结果见表V。
基线网络为类ssd的half - fusion模型,其漏报率为11.77%。仅使用半不配对增强后,性能提高到9.51%。采用多融合方法后,由于可将模态信息保留到最后一层,该数据进一步达到8.49%。最后,采用了多标签学习策略,大大提高了性能。由此,我们得出结论,所提出的方法可以鼓励模型学习更多的一般化和鉴别性特征来检测行人。
在这里插入图片描述
附上几张实验结果:

1.KAIST数据集上的实验结果
在这里插入图片描述
2.CVC-14数据集上的实验结果
在这里插入图片描述
3. 关于传感器故障的KAIST数据的实验结果
在这里插入图片描述

4. 在两台相机不配对的情况下,对KAIST数据的实验结果

在这里插入图片描述

补充知识点

1.行人检测中的评估指标 Miss Rate

  1. TP(True Positive) 预测为正样本且是预测结果是正确。该指标越接近验证集中行人的标注数量,则表明该检测器检出率更高。
  2. FP(False Positive) 预测为正样本但是预测结果错误。该指标反映的是误检率,误检率越低越好。
  3. FN(False Negative) 预测结果为负样本但是预测结果错误,即本应该被检测出来的样本未被检测出来,该指标反映的漏检率,该指标越小越好。
  4. Precious 描述TP在检测结果所占的比例,其计算方式为 Precious = TP / (TP+FP),该指标越大,表示检测准确率越高。
  5. Recall 描述被标注的行人的检出比率,其计算方式为 Recall = TP / (TP+FN) = TP / GT
  6. FPPI(False Positive Per Image) 描述每张图片的平均误检率。假设有N张图片,结果中的误检数量为FP,则
    FPPI = FP / N
  7. MR(Miss Rate) 描述检测检测结果中的漏检率的指标,即 MR = FN / GT = 1 - Recall
    该指标越小越好 。MR-FPPI与目标检测所用的Precious-Recall类似,都是两个互斥的指标,一个性能的提升必然会带来另一个性能的下降,可以反映检测器的整体性能。由于在行人检测中每幅图像的FPPI上限与行人的密度有关系,所以在行人检测领域采用MR-FPPI曲线比Precious-Recall曲线更加合理

SSD简介:

SSD是单阶段的检测方式,结合了RCNN的anchor机制和YOLO的回归思想。
SSD引入了多尺度的检测方法,在每一个尺度提取的特征图上都进行检测。
在一开始的时候单阶段的检测方法在精度上落后于两阶段的检测方法,因为在训练过程中的类别的不平衡导致了单阶段方法在精度上有劣势,因此后来提出了Focal Loss 来代替传统的交叉熵,改进了背景样本的权重,使得模型在训练过程中更偏向于较难检测的目标样本。

One-stage目标检测与Two-stage目标检测的区别?

Two-stage目标检测算法:先进行区域生成(region proposal,RP)(一个有可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。其精度较高,速度较慢。

主要逻辑:特征提取——>生成RP——>分类/定位回归。

常见的Two-stage目标检测算法有:Faster R-CNN系列和R-FCN等。

One-stage目标检测算法:不用RP,直接在网络中提取特征来预测物体分类和位置。其速度较快,精度比起Two-stage算法稍低。

主要逻辑:特征提取—>分类/定位回归。

常见的One-stage目标检测算法有:YOLO系列、SSD和RetinaNet等。

针对于小目标问题

基于多尺度的小目标检测方法:
SSD:率先引入多尺度思想,在每一个尺度提取的特征图上都进行了预测,对小目标的检测相比于YOLO算法有较好的提升。

当然后续也有人将FPN的思想结合SSD,从而提升SSD算法对小目标的检测效果。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值