目标检测应用场景—数据集【NO.39】一个机场外来物碎片数据集

  写在前面:数据集对应应用场景,不同的应用场景有不同的检测难点以及对应改进方法,本系列整理汇总领域内的数据集,方便大家下载数据集,若无法下载可关注后私信领取。关注免费领取整理好的数据集资料!今天分享一个非常好的非常小众的研究方向,有应用创新,可有利于发小论文和大论文。          

摘要

外来物碎片(FOD)检测在机器学习和计算机视觉领域受到了越来越多的关注。然而,一个强大且公开可用的 FOD 图像数据集尚未建立。为此,本文介绍了一个名为 “机场外来物碎片(FOD - A)” 的图像数据集。FOD - A 的对象类别是根据美国联邦航空管理局(FAA)的先前文档和相关研究选择的。除了用于对象检测的边界框的主要标注外,FOD - A 还提供了标注的环境条件。因此,每个标注实例进一步被分类为三个光照级别类别(明亮、昏暗和黑暗)和两个天气类别(干燥和潮湿)。目前,FOD - A 已经发布了 31 个对象类别和超过 30,000 个标注实例。本文介绍了创建方法,讨论了公开可用的数据集扩展过程,并通过广泛使用的机器学习模型进行对象检测展示了 FOD - A 的实用性。

关键词

图像数据集;外来物碎片;计算机视觉;机器学习

1. 引言

由外来物碎片(FOD)引起的事故会导致严重的伤亡和数十亿美元的飞机损失。FOD 是机场的一个关键安全隐患,机器学习和计算机视觉(MLCV)技术在探索性研究中已被证明是一种潜在的解决方案。为了促进 MLCV 在这方面的应用,需要利用和组织一个 FOD 图像和标注数据集,以开发更复杂和强大的模型和算法。

为了推动未来基于 FOD 的 MLCV 工作,我们开发了名为 “机场外来物碎片(FOD - A)” 的新数据集。FOD - A 的对象类别受到相关 FAA 文档和先前研究的影响。这些对象类别旨在涵盖多种 FOD 类型,同时包括具有描述性的特定标签。图像是在不同的光照和天气条件下收集的,以确保准确模拟典型的机场环境。不同的条件也确保了 FOD - A 数据集对现代 MLCV 算法具有挑战性。作为预览,带有示例边界框的 FOD - A 图像如图 1 所示。由于 FOD 是一种不断发展的数据类型,一个重要的 FOD 数据集能够易于扩展。为了实现可扩展性,该数据集包括一些工具,便于轻松添加新数据。由于可扩展性和一致性可能是相互矛盾的特性,因此保持 FOD - A 的多个版本可用将非常重要。一旦使用 FOD - A 的某个一致版本对算法进行了比较,就可以使用最新的 FOD - A 数据实现新算法。这确保了所有当前的 FOD - A 对象类别都包含在最终的检测算法中。

目前,有几个著名的通用数据集包含各种常见对象类别(如自行车、汽车、书桌、烤面包机)。由于 FOD 数据类型的位置(即机场),这些数据集不能很好地涵盖必要的 FOD 类别(如行李物品、飞机部件、工具)。因此,在第三部分 C 中仅对与通用对象数据集的比较进行简要介绍。

本文的其余部分组织如下。第二部分回顾了相关工作。第三部分介绍了数据集创建方法、FOD - A 统计数据和扩展过程。第四部分展示了初步实验和算法结果。最后,第五部分总结了本文并讨论了未来工作。总之,这项工作的主要贡献如下:1)初始化并创建了新颖且公开可用的数据集 FOD - A;2)设计并开发了一种高效且可抽象的图像数据集创建方法;3)实现并评估了对 FOD - A 的初步算法分析。

2. 相关工作

FAA 发布了几份文档,为 FOD 检测和管理提供指导。作为 FOD 信息的主要来源,FOD 数据集中的对象类别基于 FAA 文档。类别选择过程的详细信息在第三部分 A 中描述。

  • 现有 FOD 数据集:一个公开可访问的 FOD 数据集确实存在。然而,这个数据集主要侧重于材料识别,包括以下三个对象类别:金属、塑料和混凝土。根据 FAA 的信息,仅使用这三个对象类别并不能涵盖所有常见类型的 FOD。例如,这些对象类别无法涵盖某些类型的工具、各种常见的机场垃圾(如纸张、汽水罐)、动物和其他自然碎片、一些跑道材料(如油漆碎片)以及其他常见的 FOD。相比之下,FOD - A 提供了 31 个对象类别(见图 3)。

此外,材料识别数据集中包含的图像是放大格式。在实际的 FOD 检测任务中收集的图像不太可能放大到对象,因此 FOD - A 提供了带有边界框的缩小格式图像(见图 1)。而且,材料识别数据集包含约 3000 个对象实例,而 FOD - A 数据集包含超过 30,000 个对象实例。总之,FOD - A 数据集更适合 FOD 检测任务,因为它包含更适合机场环境的标注形式(即边界框标注加上天气和光照分类标注)、更多的对象实例和描述性对象类别。

  • 相关的 MLCV FOD 检测方法:以 FOD 为重点的 MLCV 研究越来越普遍。已经发表了几篇实现 FOD 检测算法的论文。这些论文创建了自己的私有数据集,并且通常规模较小。几个研究任务中主要数据集的有效性部分归因于专注的数据集开发和公开可访问的版本。在提出新的检测方法的同时创建一个强大的数据集是一项更大的任务。因此,FOD - A 应该使研究人员能够专注于改进 FOD 检测算法。

Li 和 Li 确实创建了自己的小数据集供内部使用。他们的数据集包含约 2000 张图像,每个对象类有 100 张图像。虽然他们的小而私有的数据集可能适用于他们提出的算法,但可能不适合大规模实验。

考虑到上述先前工作的缺点和优点,我们开发了 FOD - A,它具有三个主要优点:1)FOD - A 提供了广泛的由 FAA 文档选择的描述性对象类别,并为每个类别包括大量实例;2)FOD - A 是公开可用的,并有记录的扩展过程;3)FOD - A 考虑了在不同天气和光照条件下的现实和具有挑战性的数据样本。

3. 数据集构建

本节更详细地介绍 FOD - A,包括创建方法、FOD - A 统计数据和扩展过程。

  • 图像收集:根据 FAA,FOD 通常包括以下内容:“飞机和发动机紧固件(螺母、螺栓、垫圈、安全线等);飞机部件(燃油盖、起落架碎片、油尺、金属片、活板门和轮胎碎片);机械师工具;餐饮用品;飞行线物品(钉子、人员徽章、钢笔、铅笔、行李标签、汽水罐等);停机坪物品(餐饮和货运托盘的纸张和塑料碎片、行李部件以及停机坪设备的碎片);跑道和滑行道材料(混凝土和沥青块、橡胶接缝材料和油漆碎片);建筑碎片(木块、石头、紧固件和其他金属物体);塑料和 / 或聚乙烯材料;自然材料(植物碎片、野生动物和火山灰);以及冬季条件下的污染物(雪、冰)”。

FAA 建议金属物体是最常见的 FOD(在一项为期一年的机场研究中发现的材料中超过 60%)。我们将 FAA 的描述概括为适合 MLCV 应用的类别,优先考虑对飞机造成伤害可能性最高的物体(即被吸入并损坏喷气发动机、撕裂轮胎等)。此 FOD - A 数据集实现的结果类别见图 3。

为了创建一个适用于机场 FOD 管理的实用数据集,我们在不同条件下收集图像。机场的天气和光照条件各不相同,因此 FOD 对象数据集必须将这一事实纳入所包含的数据中。潮湿和干燥环境为 FOD - A 图像收集提供了天气变化。对于光照变化,图像收集过程包含明亮、昏暗和黑暗光照条件。由于这些环境变化中的每一个都可以很容易地抽象以适应分类任务,FOD - A 包括天气(干燥和潮湿)和光照级别(明亮、昏暗和黑暗)的分类标签。不同 FOD - A 光照级别类别的示例图像见图 2。由于雪会及时从机场环境中清除,因此无需包括下雪类别。雪清除后剩余的任何水分仍应属于潮湿类别。FOD - A 的干燥和潮湿天气类别应涵盖适用于机场的大多数天气类型。值得注意的是,天气和光照级别分类标注是在 FOD - A 的重点(即用于对象检测的边界框标注)之外的。

常见 FOD 的图像以视频(mp4)格式使用便携式和无人驾驶飞行器(UAV)相机收集。UAV 图像收集允许实现便携式手持相机无法实现的记录距离变化。便携式相机收集的图像更接近物体,并且相机角度比 UAV 相机变化更大。由于视频密集地包含图像,视频格式允许大规模图像收集。然而,使用视频格式带来了一些初始问题。一些视频并非每一帧都有目标对象,空帧可能会无用地污染数据集。视频必须被修剪到合适的间隔,然后每一帧分离为图像格式。手动执行此任务非常耗时并且妨碍可扩展性。我们创建了一个小的命令行工具来解决其中一些问题。这个工具的好处如下:1)它允许使用简单指令轻松扩展数据集;2)它使图像收集过程更高效;3)它对图像进行归一化。

这个工具将一个视频文件作为输入,然后创建一个文件夹结构、一个修剪后的视频版本和视频的帧。修剪后的视频可以作为输入提供给计算机视觉标注工具(CVAT),这使得标注过程高效。标注过程的更多细节在第三部分 B 中描述。一旦添加了标注,每个文件夹结构对应于一个视频的标注和帧集合。文件夹结构被存储在一起,这形成了原始的 FOD - A 格式。我们提供了可以将 FOD - A 格式转换为算法过程通常需要的 Pascal 视觉对象类格式(称为 Pascal VOC)的工具。

扩展工具旨在通过自动将每个视频的帧率(FPS)降低到 15 来进一步编辑视频。然后,工具在降低 FPS 后生成帧。由于每个视频的原始 FPS 约为 60 FPS,这是一种防止重复图像的有效方法。文件夹和帧的输出位置存储在一个设置文件中,以允许高效扩展。根据不同的设置,扩展工具可以自动应用于创建新数据集(如果目标是新文件夹)或扩展现有数据集(如果目标是现有目录)。工具的抽象设计可以使该过程和格式适用于任何图像数据类型。

由于每个原始视频都包含一致的光照和天气条件,扩展工具在指定天气和光照条件后自动生成分类标注。当工具将每个单独的帧输出到文件夹结构时,它将正确的分类标注以及到新图像的相对文件路径保存在一个逗号分隔值(CSV)文件中。

FOD - A 的生成图像和标注已以原始格式和 Pascal VOC 格式上传到 GitHub 存储库。这个 GitHub 页面还包含详细的数据集扩展说明。这些说明也可以用于创建新的图像数据集。通过将更多视频输入到扩展工具中,可以向数据集添加额外的图像。添加后,扩展工具会自动进行数据集所需的更改,如格式扩展和数据准备。向创建的文件夹结构中插入标注是扩展的唯一额外要求。这使得数据集扩展过程高效。

  • 图像标注:为了创建一个强大的数据集,最好包含尽可能多的 FOD 对象实例。因此,实施了一个高效且高质量的标注过程。视频数据可以使用现有的视频跟踪算法快速准确地标注。高效的标注过程由开源工具 CVAT 提供。由于 FOD - A 扩展工具输出匹配的修剪后视频以及视频的帧,图像被标注为好像它们仍然是视频格式。CVAT 的视频标注算法只需要每十帧(可以修改的间隔)进行标注,并根据需要进行手动调整。其他帧的标注通过数学方法使用两个手动创建的标注生成。中间帧仍然需要验证以确保准确性,但我们发现这只需要进行微小调整。然后,我们以标准 XML 格式(即 Pascal VOC)导出标注。一旦导出,我们只需将标注放置在扩展工具创建的相关文件夹中。

在初始数据的标注过程完成后,数据集的大小对于典型的对象检测方法来说过于庞大,并且不便于存储。此时,图像包含从 2k 到 4k 分辨率不等的大小,并且总数据集大小超过 100GB。为了在生成可扩展数据集的同时克服这个问题,我们创建了第二个命令行工具。这个调整大小工具针对目标文件夹内的所有适用文件夹,因此它可以一次用于单个标注 / 图像组合或整个数据集。一旦图像和标注被调整大小,数据集的存储大小将大幅减少(在这种情况下约为 5GB)。

这个调整大小工具将所有格式正确的 XML 和图像数据缩放到指定大小,无论比当前大小小还是大。我们将图像和标注调整为 400×400 分辨率,以促进统一大小建模,同时原始图像也可供使用。调整大小工具可以可选地显示所有带有边界框和标签的图像。图 1 中显示的图像是这个工具的一个示例输出。这只是在数据集调整大小时允许对图像进行视觉检查。在著名的数据集中发现了一些主要的标注错误。这个视觉检查过程在 FOD - A 扩展时允许对标注进行额外验证,这有助于防止类似错误。

  • 数据集统计数据:在 FOD - A 数据集初始化后,共有 31 个对象类别和超过 30,000 个标注实例。图 3 显示了边界框标注的每个类别的实例,表 1 显示了光照级别和天气类别的统计数据。

第二部分讨论的材料识别数据集包含总共 3 个对象类别和 3440 个标注实例。因此,FOD - A 和材料识别数据集的潜在应用可能有很大不同。在分析 FOD - A 时可以考虑一些数据集,如 Pascal VOC 和 Microsoft COCO 数据集。然而,这些数据集中包含的对象类别是日常对象,并且比 FOD - A 具有更广泛的应用范围。机场碎片的图像数据集应该包含 FOD 特定的对象类别。因此,日常对象数据集与 FOD - A 不能直接比较。

4. 算法分析

为了在抽象场景中验证数据集功能,有必要在几个常见的 MLCV 算法中实现 FOD - A。如前所述,这个数据集侧重于基于边界框的对象检测功能,但通过包括分类标注扩展了 FOD - A 的潜力。分类标注使用本节后面描述的一个简单二进制分类模型进行测试。边界框标注的可行性使用两个著名算法进行测试:You Only Look Once Version 3(YOLOv3)和 Single - Shot Multi - box Detector(SSD)。使用了 SSD 和 YOLOv3 的现有实现。分类准确率和平均交并比(IOU)指标用于比较算法之间的结果。这两个指标都是使用在验证数据集上的预测计算的。

准确率计算为正确分类预测的数量除以预测的总数量。为了计算平均 IOU,在真正阳性分类情况下预测的 IOU 值被平均。仅从真正阳性分类情况计算 IOU 值有助于与准确率结果区分开。

初步实验从使用 YOLOv3 开始。如图 4(b)所示,损失达到约 7.05 的值。对于此实现,损失是使用原始 YOLOv3 论文中提出的方法计算的。在这个实验中,YOLOv3 在 FOD - A 验证数据上产生了 12.42% 的分类准确率和 47.58% 的平均 IOU。正如准确率和平均 IOU 指标所示,YOLOv3 算法通常预测错误的分类标签,但经常生成正确的边界框。

如图 4(a)所示,SSD 损失达到约 6.51 的值;损失结果在约 140 个 epoch 后接近收敛。在此实现中,损失是使用原始 SSD 论文中定义的方法计算的。SSD 提供了 71.81% 的分类准确率和 68.05% 的平均 IOU。

在这个实验中,SSD 比 YOLOv3 产生了更好的结果。然而,本文的范围主要限于 FOD - A 数据集的介绍,因为针对 FOD - A 的算法优化是未来的工作。如预期的那样,FOD - A 对现代 YOLOv3 和 SSD 算法来说是困难的。这为未来算法在效率和准确性方面的增强提供了空间。

由于 FOD - A 还包括分类标注,我们使用迁移学习通过一个二进制分类模型检查此功能。通过移除输出层并替换为一个最大池化层和一个具有两个输出神经元的全连接层,这个二进制分类模型使用在 ImageNet 上预训练权重的 MobileNetv2 架构构建。FOD - A 包括天气和光照分类标注。为了测试分类标注的功能,我们使用两个天气标注(潮湿和干燥)进行了实验。二进制分类模型很快变得熟练,并且能够有效地区分 FOD - A 图像中的潮湿和干燥背景。准确率在验证数据上迅速提高到最大值。该模型能够正确分类大多数图像,但在测试数据上仍然有一些异常预测。虽然单独的天气分类可以很快解决,但分类和边界框检测的组合对现代算法来说证明是困难的。此外,天气和光照标注在未来的实际工作中可能被证明是有用的。

5. 结论

MLCV 在 FOD 的各种任务中已经产生了有前景的结果。然而,据我们所知,在提出的工作之前,一个合适的公开可用的 FOD 数据集尚未初始化。本文介绍了 FOD - A 并提出了一种可抽象的图像数据集创建方法。如前所述,FOD - A 的对象类别是根据先前的 FAA 文档和研究选择的。这使得能够全面涵盖常见的 FOD。此外,我们开发了一个高效且公开记录的扩展过程,并打算在 GitHub 存储库上提供 FOD - A 的几个扩展版本。由于 FOD 是一种不断发展的数据类型,一个高效的扩展过程是很重要的。为了模拟机场环境,FOD - A 中的图像包含不同的光照和天气条件。除了边界框标注,我们还将这些天气和光照条件作为分类标签提供。我们还在不同算法上验证了这些方法对于 FOD - A 的对象检测和分类功能。实验结果展示了 FOD - A 的实用性和难度。

有几个研究方向可以基于这项工作展开。未来工作的一个方向是为 FOD 数据类型开发更高效和准确的对象检测技术。一旦检测算法得到改进,进一步的工作可以探索在机场进行实际实验。

6. 资源

GitHub:https://github.com/FOD - UNOmaha/FOD - data

非常好的非常小众的研究方向,有应用创新,可有利于发小论文和大论文,有需要的朋友可私信我。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能算法研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值