【翻译】Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark

论文:https://arxiv.org/abs/2108.07020
代码:https://github.com/bywang2018/security-dataset

摘要

由于各种因素,包括类内差异、类不平衡和遮挡,使用计算机视觉技术的自动安全检查在现实场景中是一项具有挑战性的任务。由于缺乏大规模数据集,以往的方法很少解决违禁物品被故意隐藏在杂乱对象中的情况,限制了其在现实场景中的应用。对于现实世界中的违禁物品检测,我们收集了一个大规模的数据集,命名为PIDray,它涵盖了现实世界中各种情况下的违禁物品检测,尤其是故意隐藏的物品。经过大量的努力,我们的数据集包含了47,677张X射线图像中的12类违禁物品,并带有高质量的带注释的分割masks和bounding boxes。据我们所知,这是迄今为止最大的违禁物品检测数据集。同时,我们设计了选择性密集注意网络(SDANet)来构建强基线该网络由密集注意模块和依赖性精化模块组成。密集注意模块由空间密集注意和通道密集注意组成,用于学习区分特征以提高性能。依赖性精化模块用于利用多尺度特征的依赖性。在收集的PIDray数据集上进行的大量实验表明,所提出的方法优于最先进的方法,特别是对于检测故意隐藏的项目。

1. 引言

安全检查是根据设定的标准对资产进行检查,并对安全系统和访问控制进行评估,以确保安全的过程,这对于发现公共交通和敏感部门等各种情况下的潜在风险非常重要。在实际操作中,检查人员需要对安检机获取的x射线扫描图像进行监控,以发现违禁物品,如枪支、弹药、炸药、腐蚀性物质、有毒物质和放射性物质。然而,检查人员很难准确、高效地定位隐藏在杂乱物品中的违禁物品,这对安全构成了巨大威胁。

近年来,由于深度学习和计算机视觉技术[31,24,34,14,13,16,3]的长足发展,对违禁物品的自动安全检测成为可能。安检人员依靠计算机视觉技术,可以快速识别违禁物品的位置和类别。在计算机视觉中,以往的目标检测算法大多针对的是自然图像中的目标,而对于x射线图像的检测则不是最优的。此外,x射线具有很强的穿透力,物体中不同的材料对x射线的吸收程度不同,从而产生不同的颜色。同时,x射线中遮挡物的轮廓与被遮挡物的轮廓混合在一起。如图1所示,x射线图像与自然图像相比,物体和背景的外观和边缘都有很大的不同,这给x射线检测的外观建模带来了新的挑战。为了推动x射线图像中违禁物品检测的发展,最近一些尝试致力于构建安全检查基准[25,1,2,26,36]。然而,由于三个原因,它们中的大多数不能满足实际应用程序的需求。(1)现有的数据集只包含少量且很少种类的违禁物品(如刀、枪和剪刀)。例如,一些常见的禁止物品,如电动汽车,打火机和喷雾器不包括在内。(2)在现实生活中,根据对口罩和违禁物品类别的准确预测,对安全等级要求较高。以前数据集中的 image-level 或bounding box-level 注释不足以在这种情况下训练算法。(3)发现隐藏在杂乱物品中的违禁物品是安全检查中最重要的挑战之一。然而,由于缺乏涵盖此类病例的综合数据集,很少有研究朝着这一目标发展。
在这里插入图片描述

为此,我们收集了一个用于实际应用的大规模违禁物品检测数据集(PIDray)。我们的PIDray数据集涵盖了x射线图像中的12种常见违禁物品。图2中显示了一些带有注释的图像示例,其中每个图像至少包含一个带有 bounding box 和mask注释的禁用项。值得注意的是,为了更好地使用,将测试集划分为三个子集,即easy、hard和hidden。隐藏子集专注于故意隐藏在杂乱对象中的禁止物品(例如,通过包裹电线改变物品形状)。据我们所知,这是迄今为止探测被禁止物品的最大数据集。

在这里插入图片描述
同时,我们还提出了选择性密集注意网络(selective density attention network, SDANet)来构建强基线,该网络由密集注意模块和依赖细化模块组成。密集注意模块利用空间注意机制和通道注意机制利用判别特征,有效地定位隐藏在杂乱物体中的故意禁止的物品。构建依赖细化模块是为了利用多尺度特征之间的依赖关系。在提出的数据集上的广泛实验表明,我们的方法优于现有的方法。特别是,我们的SDANet在隐藏子集上的对象检测和实例分割方面分别比Cascade Mask R-CNN[5]实现了1.5%和1.3%的AP改进。

这项工作的主要贡献总结如下。(1)对于现实场景下的违禁物品检测,我们提出了一个由47677幅图像组成的大规模基准,即PIDray。据我们所知,这是迄今为止最大的x射线禁止物品检测数据集。同时,这是第一个针对被禁止的物品被故意隐藏在凌乱的物品中的情况的基准。(2)提出了选择性密集注意网络,由密集注意模块和依赖细化模块组成。密集注意模块用于捕获空间和通道方面的鉴别特征,依赖细化模块用于利用多尺度特征之间的依赖关系。(3)在所提出的数据集上进行了大量实验,以验证所提出的方法与现有方法相比的有效性。

2. 相关工作

2.1 禁止物品Benchmarks

当x射线穿过一个物体时,由于x射线的穿透力强,不同的材料对它的吸收程度不同。因此,不同的材料在x射线图像中呈现不同的颜色。这种能力使得检测重叠数据变得困难。此外,自然图像造成的困难仍然存在,包括类内差异、数据不平衡、遮挡等。

为了提高违禁物品检测方法的鲁棒性,之前的工作收集了一些数据集。[25] 提出了一个名为 GDXray 的公共数据集,用于无损检测。GDXray包含三种违禁物品:枪、飞镖和剃须刀片。由于几乎没有复杂的背景和重叠,很容易识别或检测该数据集中的目标。与GDXray相比,Dbf6[1]、Dbf3[2]和OPIXray[36]的背景复杂,数据重叠,但图像数量和禁用项数量仍然不足。最近,[21]构建了一个包含32,253张x射线图像的数据集,其中12,683张图像包含违禁物品。该数据集包含手机、雨伞、电脑、钥匙等6种物品,但没有一种是严格禁止的。[26]发布了一个名为SIXray的大规模安全检查基准,它包含1059231张带有图像级注释的x射线图像。然而,数据集中包含违禁物品的图像较少(即只有0.84%)。此外,该数据集包含 6 个类别的违禁物品,但实际上只有 5 个类别被标注。与上述数据集不同的是,我们提出了一个新的大规模安全检测基准,该基准包含超过47k张带有违禁物品的图像和12类带有像素级注释的违禁物品。在现实应用中,我们专注于检测故意隐藏的违禁物品。
在这里插入图片描述

2.2.目标检测

目标检测是计算机视觉的基本任务之一。现代目标检测器一般分为两类: two-stage和one-stage检测器。

Two-stage Detectors. R-CNN [10] 是最早表明 CNN 可以显着提高检测性能的作品之一。但是,每个regional proposal在 RCNN 中都是单独处理的,非常耗时。 Fast-RCNN[9] 提出了 ROI pooling层,它可以从全图的 feature map 中为每个proposal提取固定大小的特征。 Faster R-CNN [31] 引入了 RPN 网络来替代selective search,这激发了很多后来的工作。例如,FPN [18] 通过自上而下的路径和横向连接将低分辨率特征与高分辨率特征相结合。 Mask R-CNN[11]在Faster-RCNN[31]的基础上增加了一个mask分支,通过多任务学习提高检测性能。 Cascade R-CNN [4] 将经典的级联架构应用于 Faster R-CNN [31]。 Libra R-CNN [27] 开发了一个简单有效的框架来消除检测训练过程中的不平衡。

One-stage Detectors. OverFeat [32] 是第一个基于深度学习的one-stage检测器。之后,提出了不同的one-stage目标检测器,包括 SSD [24]、DSSD [8] 和 YOLO 系列 [28、29、30]。 RetinaNet [19] 极大地提高了one-stage检测器的精度,使得one-stage检测器超越two-stage检测器成为可能。最近,anchor-free方法通过使用关键点表示对象而引起了研究人员的广泛关注,包括 CornerNet [15]、CenterNet [6] 和 FCOS [34]。这些方法消除了对anchor的需求并提供了简化的检测框架。

2.3. 注意力机制

最近,注意力机制已广泛应用于各种任务,例如神经机器翻译、图像字幕和视觉问答。注意机制的本质是模仿人类的视觉注意,可以快速从大量信息中过滤掉有区别的信息。为了获得更多的判别信息,已经提出了各种注意机制。 SENet [12] 提出了 Squeeze-andExcitation 模块来模拟通道之间的相互依赖关系。 CBAM [37] 对特征的通道间关系和空间间关系进行建模。 Non-Local network [35] 可以直接捕获任意两个位置的远程依赖关系,它计算输入feature map 中所有位置的特征的加权和作为某个位置的响应。由于之前的许多工作[18, 22]显示了多尺度特征融合的重要性,我们认为这是解决违禁物品检测问题的关键技术。在 X 射线图像中,物体的许多重要细节都丢失了,例如纹理和外观信息。而且,物体的轮廓重叠,这也给检测带来了很大的挑战。多尺度特征融合考虑了细节信息丰富的低层和语义信息丰富的高层,可以更好地检测违禁物品。因此,我们提出了一个选择性密集注意力网络。具体来说,我们在通道间和像素间位置学习不同阶段的feature map 之间的关系。

3. PIDray 数据集

在本节中,我们提供了构建的 PIDray 数据集的详细信息,包括数据收集、注释和统计信息。

3.1 数据采集

PIDray 数据集是在不同场景(例如机场、地铁站和火车站)中收集的,我们可以在这些场景中放置安检机。我们招募了不介意在数据集中显示他们的包裹的志愿者(我们承诺仅将其用于科学研究而不用于商业)。我们使用 3 台来自不同制造商的安检机来收集 X 射线数据。不同机器生成的图像在物体和背景的大小和颜色上有一定的差异。将包裹送到安检机后,机器会通过检测图像的空白部分,将包裹完全切出。一般来说,图像高度是固定的,而图像宽度取决于被扫描包裹的大小。
在这里插入图片描述

完整的收集过程如下:当该人需要安检时,我们将预先准备好的违禁物品随机放入他或她所携带的包裹中。同时保存了对象的粗略区域,方便后续的标注工作顺利进行。数据集中共定义了12类违禁物品,分别是枪、刀、扳手、钳子、剪刀、锤子、手铐、警棍、喷雾器、充电宝、打火机和子弹。为了保持多样性,我们为每种违禁物品准备了 2 ∼ 15 个实例。我们花了三个多月的时间为 PIDray 数据集收集了总共 47、677 张图像。最后,数据集中每个类别的分布如图 4 所示。所有图像都以 PNG 格式存储。
在这里插入图片描述

3.2 数据注释

我们招募了一些志愿者来注释收集的数据。为了使他们能够更快速、更准确地从 X 射线图像中识别出违禁物品,组织了一些培训课程。我们首先组织了 5 名志愿者从数据集中过滤掉不包含违禁物品的图像。同时,他们还需要对图像级别的标签进行标注,可以方便后期的标注工作。在标注方面,我们组织了 10 多名志愿者使用 labelme tool1 对我们的数据集进行了两个月的标注。每张图片大约需要 3 分钟注释,每个志愿者每天花费大约 10 个小时来注释图片。在注释过程中,我们标记每个实例的边界框和分割掩码。经过多轮复核,尽量减少错误。最后,我们为每张图像生成高质量的注释。

3.3 数据统计

据我们所知,PIDray 数据集是迄今为止最大的 X 射线违禁物品检测数据集。它包含 47,677 张图片和 12 类违禁物品。如表 2 所示,我们将这些图像分为 29,457(大约 60%)和 18,220(剩余 40%)图像,分别作为训练和测试集。此外,根据违禁物品检测的难易程度,我们将测试集分为三个子集,即easy、hard和hidden。具体来说,easy模式是指测试集中的图像只包含一个禁止项目。hard模式表示测试集中的图像包含多个违禁物品。hidden模式表示测试集中的图像包含故意隐藏的违禁物品。如图 3 所示,我们在测试集中提供了几个不同难度级别的示例。
在这里插入图片描述

4. 选择性密集注意力网络

如上所述,以前的工作通常采用特征金字塔[18]来利用网络中的多尺度特征图,其重点是仅融合相邻层中的特征。之后,将简洁的头部(例如,一个简单的卷积层)应用于池化特征网格以预测实例的边界框和掩码。然而,性能受到复杂场景中对象的尺度变化的影响。我们的目标是学习基于自上而下特征金字塔结构的多尺度特征图的重要性[18]。在本节中,我们将详细介绍所提出的选择性密集注意力网络(SDANet)的架构和组件。

4.1 网络架构

如图5(a)所示,在特征金字塔之后,我们的网络通过以下两个关键步骤进一步充分利用了多尺度特征图:1)通过两个选择性注意模块融合来自不同层的信息。 2)通过依赖细化模块增强融合特征。

在这里插入图片描述
请注意,这两个步骤是在每一层的feature map上执行的。在结合原始map和增强map后,多尺度表示被输入区域建议网络(RPN)进行最终预测。

受[17]工作的启发,我们提出了两个选择性注意模块来分别提取金字塔中不同特征图的通道和空间注意,包括选择性通道注意模块(SCA)和选择性空间注意模块( SSA)。如图 5(b) 所示,金字塔中的每个feature map分别输入 SCA 和 SSA。在第 i i i层,输出增强特征是通过两个模块之后的特征的元素求和来计算的。为了实现 SCA 和 SSA 模块,我们首先通过元素操作融合不同层的特征,即 X ^ = ∑ i = 1 n X i \hat{X}=\sum_{i=1}^{n} X_{i} X^=i=1nXi。因此,我们实现了不同map之间的全局语义表示。请注意,我们将多阶段特征 X 1 , ⋅ ⋅ ⋅ ⋅ , X n {X1,····, Xn} X1,,Xn调整为与第 i i i 层特征相同的比例,然后再将它们输入两个模块。然后,我们通过聚合具有各种注意力的feature map来获得增强的特征,具体描述如下。

4.2 选择性通道注意

如图 6 所示,我们使用全局平均池化 (GAP) 层来获取基于基本特征 X ^ \hat{X} X^ 的全局通道信息。之后,我们使用全连接(FC)层通过减少通道维度(例如,从 256 到 128)来压缩全局通道信息。此外,我们通过为每一层添加 FC 层和 softmax 操作,自适应地获得不同feature map的通道注意权重 { ω i c } i = 1 n \{ω^c_i\}^n_{i=1} {ωic}i=1n。最后通过每一层的注意力权重得到增强的特征图 V C V_C VC,即 V C = ∑ i = 1 n ω i c ⋅ X i V_C =\sum_{i=1}^{n} ω^c_i·X_i VC=i=1nωicXi
在这里插入图片描述

4.3 选择性空间注意

如图 7 所示,我们在feature map X ^ \hat{X} X^ 上使用平均池化和最大池化操作来生成两个不同的空间上下文描述符,即 A v g ( X ^ ) Avg(\hat{X}) Avg(X^) M a x ( X ^ ) Max(\hat{X}) Max(X^)。给定连接的上下文描述符,我们可以通过为每一层添加卷积层和 softmax 操作来获得空间注意力权重。最后通过每一层的注意力权重得到特征图 V S V_S VS,即 V S ( x , y ) = ∑ i = 1 n ω i s ( x , y ) ⋅ X i ( x , y ) V_S(x,y)=\sum_{i=1}^{n} ω^s_i(x,y)·X_i(x,y) VS(x,y)=i=1nωis(x,y)Xi(x,y),其中(x,y)表示特征图中像素的索引。
在这里插入图片描述

4.4 依赖细化

在获得具有通道和空间注意力的聚合特征后,我们开发了依赖细化 (DR) 模块以生成更具辨别力的特征图。非局部表示[35]可以有效地捕获远程依赖关系,从而进一步提高准确性。如图 5© 所示,我们首先聚合全局上下文特征,然后建立不同通道之间的关系。最后,通过融合模块将全局上下文特征融合到所有位置的特征中。

5. 实验

我们对 PIDray 数据集进行了广泛的实验,以将所提出的方法与几种最先进的算法进行比较。然后,消融研究用于显示我们方法中提出的模块的有效性。最后,我们验证了该方法在一般检测数据集上的有效性。

5.1 实施细节

我们使用 MMDetection 工具包来实现我们的方法,该方法在具有两个 NVIDIA Tesla V100 卡的机器上执行。我们的方法在 Pytorch 中实现。为了公平比较,所有比较的方法都在训练集上进行训练,并在 PIDray 数据集的测试集上进行评估。所提出的 SDANet 基于 Cascade Mask-RCNN [5],其中 ResNet-101 网络用作主干。根据我们的统计,我们数据集中图像的平均分辨率约为 500 × 500。因此,我们将图像大小调整为 500 × 500,以便比较检测器进行公平比较。整个网络使用随机梯度下降(SGD)算法进行训练,动量为 0.9,权重衰减为 0.0001。初始学习率设置为0.02,batch size设置为2。除非另有说明,否则实验中涉及的其他参数均遵循MMdetection的设置。

5.2 评估指标

根据 MS COCO[20] 的评估指标,我们使用 AP 和 AR 指标评估比较方法在我们的 PIDray 数据集上的性能。分数在多个 Intersection over Union (IoU) 上进行平均。值得注意的是,我们使用了 0.50 到 0.95 之间的 10 个 IoU 阈值。具体来说,AP 分数是所有 10 个 IoU 阈值和所有 12 个类别的平均值。为了更好地评估模型,我们查看了各种数据拆分。 AP50 和 AP75 分数分别以 IoU = 0.50 和 IoU = 0.75 计算。请注意,PIDray 数据集中的许多违禁物品都很小(面积 < 322),这是由 ARS 指标评估的。此外,AR 分数是给定每张图像的固定检测次数(例如,1、10、100)的最大召回率,平均超过 12 个类别和 10 个 IoU。

5.3 全面评估

如表 3 所示,我们首先将我们的方法与一些最先进的目标检测器进行比较。可以看出,我们的 SDANet 在 PIDray 数据集中的所有子集方面都取得了最好的性能。例如,与最大的竞争对手 Cascade Mask R-CNN [5] 相比,我们的方法在隐藏测试集上的两个子任务分别实现了 1.5% 和 1.3% 的 AP 增益,这表明了所提出的选择性密集注意力模块的有效性.如图 8 所示,我们的方法比 Cascade Mask R-CNN [5] 实现了更高的准确度。视觉结果表明,SDANet 可以有效地检测违禁物品,尤其是那些被故意隐藏的物品。
在这里插入图片描述

在这里插入图片描述
为了验证所提出的选择性密集注意方案的有效性,我们将我们的方法与之前的多尺度特征融合策略进行了比较,包括 FPN [18]、PAFPN [23] 和 BiFPN [33]。 FPN [18] 提供了一种自上而下的路径来融合多尺度特征,而 PAFPN [23] 在 FPN 之上添加了一个额外的自下而上的路径。 BiFPN [33] 是加权双向特征金字塔网络,它允许简单快速的多尺度特征融合。如表 3 所示,我们的方法优于现有的多尺度特征融合策略。我们推测这归因于两个原因。首先,两个选择性注意模块可以跨多层密集地聚合语义信息。其次,依赖细化模块可以进一步捕获不同特征映射之间的长期依赖关系。结果表明,我们的方法可以有效地检测故意隐藏的数据。

5.4 消融研究

由于这项工作的重点是检测故意隐藏的违禁物品,我们进行消融研究以分析提出的模块对 PIDray 数据集的隐藏测试集的影响。

如表 4 所示,我们报告了当我们在基线 Cascade Mask R-CNN [5] 中一个一个地添加模块时,我们的 SDANet 的性能如何得到改进。首先,选择性通道注意模块将基线方法改进了 0.3% 检测 AP 和 0.4% 分割 AP 。然后,当结合选择性空间注意模块时,性能不断提高 0.6% 检测 AP 和 0.2% 分割 AP。最后,依赖细化模块在检测 AP 和分割 AP 方面分别提高了 0.6% 和 0.7%。
在这里插入图片描述
我们还将依赖细化模块与现有的注意力机制(例如 SE 和 CBAM)进行了比较。表 5 显示了所有模型的结果。结果表明,DR在检测故意隐藏物品方面具有明显优势。
在这里插入图片描述

5.5.通用检测数据集的评估

最后,我们还在一般检测数据集上进行了一些实验,以评估 SDANet 在自然图像上的有效性。实验使用自然图像检测领域的知名数据集MS COCO[20]和PASCAL VOC[7]。实验结果如表 6 所示。我们遵循 MMDetection 中的训练和测试pipelines。与基线方法(Cascade Mask R-CNN)相比,我们在 MS COCO 和 PASCAL VOC 上分别实现了 0.6 AP 和 1.0 AP 增益。实验结果表明,我们的方法不仅适用于违禁物品的检测,而且在一般场景中也很有效。
在这里插入图片描述

6. 结论

在本文中,我们构建了一个具有挑战性的数据集(即 PIDray)用于违禁物品检测,特别是处理违禁物品隐藏在其他对象中的情况。 PIDray 是迄今为止我们所知的最大的违禁物品检测数据集。此外,所有图像都使用bounding boxes 和bounding boxes 进行注释。为了了解多尺度特征图的重要性,我们提出了选择性密集注意力网络。在 PIDray 数据集上的实验证明了我们方法的优越性。我们希望所提出的数据集能够帮助社区建立一个统一的平台,用于评估违禁物品检测方法对实际应用的评估。对于未来的工作,我们计划扩展当前数据集以包含更多图像以及更丰富的注释以进行综合评估。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值