基于时间序列图像不确定性分析的多模态少样本目标检测

摘要

对于自动识别系统来说,解释多模态数据并绘制目标和异常的能力非常重要。由于训练阶段的多模态时间序列数据标注成本高、耗时长,来自无人机和四足移动机器人平台的多模态时间序列图像理解对遥感和摄影测量来说是一项具有挑战性的任务。在这方面,由于空中和地面平台上的数据有限,稳健的方法必须在计算上成本低,但又足够精确,以满足确定性措施。在本研究中,提出了一种基于挤压和注意力结构的少样本学习架构,用于多模态目标检测,使用来自无人机和四足机器人平台的时间序列图像和小型训练数据集。为了构建稳定的目标检测算法,从有限训练数据的多模态时间序列图像中开发了一种压缩-注意结构作为优化方法。提出的架构在三个具有多种模式(例如,红-绿-蓝,彩色红外和热)的数据集上进行了验证,获得了具有竞争力的结果。
关键词:多通道;时间序列图像;机器人;目标检测;少样本学习。

介绍

在大规模摄影测量和遥感观测(如无人机成像)中,由于目标和背景的光谱相似性,多模态图像中的视觉目标检测是一个难题[1]。在现实世界的应用中,来自城市地区的各种地理空间信息在创建和分析数据集时可能会造成困难,因为很难找到符合他们学习偏好的正确方法。无人机成像是城市尺度下不同目标的静态和动态目标检测的良好解决方案[2]。无人机和四足移动机器人配备多模态传感器(如RGB、彩色红外和热传感器),是基于时间序列图像[3,4,5]的现实场景高分辨率场景理解的一种高效、低成本的方法,如作物和杂草监测、交通和车辆管理、危机管理的搜救任务。因此,目标检测是从时间序列图像中理解场景的重要任务[6,7,8]。在一个小的训练数据集上找到一个优化的算法是目标预测及其实际应用的关键挑战。
在无人机成像中,提出了一种基于全卷积网络(FCN)、扩张卷积神经网络(DCNN)、U-Net和多尺度扩张的新型编码-解码深度学习方法,用于从倾斜时序图像中预测多个目标 [9]。此外,提出了一种基于编码器-解码器模型的多任务学习方法,用于从多模态无人机图像中检测车辆和建筑物 [10]。Gao et al(2021)提出了一种基于全卷积一级目标检测(FCOS)的少样本检测器,用于无人机图像中的车辆、储罐和飞机检测[11]。此外,还提出了一种基于少样本学习方法(也称为CenterNet)的基于RGB图像的无人机(即无人驾驶飞机)的植物定位和计数技术。本研究的定量评估表明,改进的CenterNet架构的平均精度约为95%[12]。设计了一个多流框架和一种深度多模态学习方法,用于从空间外观、无人机摄像机运动和场景结构等方面评估无人机视频的美学质量 [13]。 Lu 和Koniusz(2022年)提出了一种基于RGB图像的不确定性学习的多类目标关键点检测(FSKD)管道,用于未知物种的识别 [14]。在四足移动机器人视觉方面,提出了一种基于ERFNet、MAVNet、U-Net、Fast-SCNN、MFNet和RTFNet的多模态时序图像的高效研究方法,用于灭火器、背包、电钻和幸存者的识别 [15]。CNN中的编码器块(由编码函数𝑦 = 𝑓(𝑥)表示)将时序图像输入压缩到隐含空间中,而解码器块(𝑧 = ℎ(𝑦))则旨在从隐含空间中预测目标。 Unal (2021年)提出了一种基于卡尔曼滤波器和深度学习的视觉目标检测方法,用于从RGB街景图像中进行人体跟踪。在这项研究中,使用了卡尔曼滤波器来估计机动目标的位置、速度和加速度。Kiyak和Unal(2021)提出了四种深度学习模型(即深度卷积神经网络(DCNN)、带微调的深度卷积神经网络(DCNNFN)、带深度卷积神经网络的迁移学习(TLDCNN)和带迁移学习的微调深度卷积神经网络(FNDCNNTL))来检测小型飞机[17]。在Han等人(2022)的研究中,他们将元学习与跨模态表示相结合,将少数样本学习方法(又称为FSOD)应用于基于RGB街景图像的物体检测任务中[5]。为实现在无人机或四足移动机器人等传感器视角和姿态变化的情况下也能保持稳定的目标检测精度,可以采用多模态少数据样本学习方法 [18,19,20,21,22]。根据相关文献,一些研究表明,在实际应用中,由于缺乏针对像素级的训练,少数样本学习模型在实际应用中的表现不佳,这一问题尚未在相关研究中得到充分考虑;此外,由于仅使用单模态数据进行训练,导致模型在不同平台上的泛化能力较差。
本研究提出了一种基于挤压-注意力结构的少样本机器学习架构,用于基于无人机和四足移动机器人平台的时序图像的多模态目标检测,并使用小型训练集。为了在目标检测中构建具有稳定性的算法,我们从有限的训练数据中提取多模态时序数据,并开发了一种名为“挤压-注意力”的结构作为优化方法。我们的目标是利用无人机和四足移动机器人平台的多模态时序数据的目标检测领域的小样本训练数据来填补一些监督方法的不足。以下是我们的贡献概述:
(1)提出了一种基于特征提取的不确定性分析的几类学习模型,采用编码器-解码器结构和挤压-注意力模块。所提出的模型在编码块中包含两个组件,包括残差表示提取和注意力层。
(2)提出了一种从多模态图像中提取固有表征和潜在表征的新方法;
(3)我们针对不同的现实场景进行了多个多模态数据集,以研究所提出的少样本学习方法的性能。

材料和方法

  1. 问题的定义
    尽管最近在无人机成像和少拍学习方面取得了突破,但自信和稳健的目标检测仍然是遥感工程师面临的挑战[20,24]。无人机图像静态和动态目标检测的目的是通过逐像素分割在大尺度图像上定位目标[25]。图1显示了无人机和四足移动机器人平台的倾斜和垂直视图的比较。在图1中,不同距离的目标需要在不同的尺度空间和空间光谱表示中进行处理。由于训练阶段的多模态时间序列数据标注昂贵且耗时,无人机和四足移动机器人平台的多模态时间序列图像理解对于遥感和摄影测量来说是一项具有挑战性的任务[26]。在这方面,由于空中和地面平台上的数据有限,稳健的方法必须在计算上成本低,但又足够精确,以满足确定性措施。
    在这里插入图片描述
    在无人机图像的几次学习中使用不确定性建模进行目标定位,可以提高对有限训练数据集的场景理解,而许多目标检测方法似乎可以在大量训练数据的情况下理解单次定位[27]。few -shot学习可以在少数标记图像上进行训练后执行看不见的任务,并且可以考虑多个任务来产生预测函数;它也是一种归纳传递系统,其主要目的是提高多任务的泛化能力[21]。训练后的网络的目标定位可以假设是准确的,但对于现实应用中的决策来说并非如此[28,29,30]。例如,在农业任务中及时检测杂草对于获得优质作物至关重要。因此,不确定性估计图应该是预测图的关键阶段。
    近年来,关于少样本学习在图像处理中的民用应用的研究迅速增加。一般的少样本学习方法是预训练的卷积神经网络[31],它在大型数据集上进行训练,并在另一个任务上进行微调。在iSAID数据集[32]上训练的深度网络可以用于另一个实例分割,因为iSAID包含超过655,451个对象实例。这种方法被称为迁移学习,它需要一个大的训练数据集和参数来进行微调[33]。迁移学习包括将知识从一个初步任务转移到一个与旧任务有许多相似之处的新任务中[34]。在元学习[35]中,为了从有限数量的带注释图像的训练数据中学习,提出了一种新的策略,称为少样本学习。
    在这方面,开发了少样本学习模型,并且它们已被证明是仅使用有限训练数据就可实现的稳定方法。
    一种与模型无关的元学习方法已被开发用于图像分割[36]。与模型无关的元学习通过优化模型初始化来扩展梯度下降,从而在一组相关任务上获得良好的性能。一种门控编码器-解码器卷积神经网络被提出用于多光谱无人机图像逐像素杂草检测[37]。虽然这些相关的模型对于一些目标定位任务来说是相当强大的,但是据我们所知,它们在机密的静态和动态目标检测方面的性能仍然不够出色。

  2. 提出的少样本学习网络
    所提出的用于稳定目标定位的少样本学习网络的图形总结如图2所示。建议的模型包含以下三个集合,其中每个集合包含𝑀张图片:一个训练集𝐷𝑡𝑟𝑎𝑖𝑛={𝑥𝑖,𝑦𝑖}𝑀𝑖= 1,𝑥𝑖:𝐷→ℝ3,一个输入图像,并且:𝐷→{0,1},其对应的地面真值图;一组支持𝐷𝑠𝑢𝑝𝑝𝑜𝑟𝑡 = {𝑥𝑖,𝑦𝑖}𝑀𝑠𝑢𝑝𝑝𝑜𝑟𝑡𝑖 = 1;和一个测试集𝐷𝑡𝑒𝑠𝑡={𝑥𝑖}𝑀𝑡𝑒𝑠𝑡𝑖= 1。该模型以DMF-Net[37]、SA-Net[38]和MF-Net[26]作为杂草检测、车辆监控和人员检测的主要骨干模型。
    在这里插入图片描述
    在本研究中,我们设计并训练了DMF-Net、SA-Net和MF-Net来增强学习和提高训练模型的泛化能力。DMF-Net是一个轻量级的门控卷积神经网络模型,模型大小为70 MB。该模型使用轻量级数据集进行训练,该数据集包括150个多光谱无人机图像样本,大小为480 × 360像素。门控CNN通过使用卷积层提取优化的单日期或时间序列图像,有效地减少了不必要的数据传输。SA-Net和MF-Net是基于基于区域的时间聚合蒙特卡罗dropout的小样本学习模型[39],可以进一步改进不确定性建模,指导车辆和人的监测。
    我们的模型不同于类似的基于卷积神经网络的多尺度特征提取,因为它克服了卷积块和二进制掩码生成的约束,用于静态和动态目标定位。这个方法方法利用一对编码器和解码器。编码器由四个压缩-注意模块组成,解码器由一个转置卷积模块和插值模块组成,该模块学习非局部空间频谱特征。为了聚合多步非局部表示,我们在骨干模型的多步输出上采用了四个挤压和注意模块,从而获得了更好的目标边界。在该方法中,我们将基于区域的时间聚集蒙特卡罗丢出作为目标定位的不确定性估计。我们提出了一种基于新的压缩-注意力块<s:1>𝑛的编码器-解码器网络,以及转置的共同进化𝑇𝐷对时间序列图像进行目标检测,采用不同的平台进行少样本学习(图2)。卷积层包括5 × 5个核,它们使用步幅1应用于输入表示映射。这个少样本学习网络由10个挤压和注意层组成,然后是批处理归一化(Bt)和校正线性单元(ReL)函数来生成特征图,以及最大池化层来减少特征图的大小(表1)。
    在这里插入图片描述
    在实际操作中,我们定义一个训练数据集𝑇𝐷用于训练步骤的是一个测试数据集𝑄𝐷,以及一个支持集𝑆𝐷用于测试步骤。
    我们将提出的网络的组成部分总结如下:
    门控模块。该模块基于引导特征提取器、特征融合层、扩展CNN、初始化层和编码器-解码器块。门控模块从多模态数据中提取时序图像的对象级表示。我们使用DMF𝐺𝑖=[𝐵𝑡(𝐿⊗𝑘3×3)]⊙[𝑈𝑃(𝑈⊗𝑘3×3)]作为门控模块[37];
    挤压-注意力层。为了聚合多尺度非局部表示,我们采用挤压-注意力层𝐵 = 𝑈(𝑅𝐿(𝑓𝑎𝑡𝑡(𝑃𝑜𝑜𝑙(𝐼))) × 𝑥𝑟𝑒𝑠 + 𝑈(𝑅𝑒𝐿𝑈(𝑓𝑎𝑡𝑡(𝑃𝑜𝑜𝑙(𝐼)))对门控模块模型的多尺度输出,得到更好的目标边界;
    加权二元交叉熵。这个损失函数𝐸(𝑐𝑝,𝑐𝑝̂) = −(𝛾log(𝑐𝑝̂) + (1 − 𝑐𝑝)log(1 − 𝑐𝑝̂))用于目标不平衡的问题,其中所有正像素被加权接近1的量;
    系统实现详细信息。该方法使用PyTorch在单个NVIDIA TESLA K80上进行训练,batch size为12,进行150 epoch的目标预测。学习率和动量约为10^−2随机梯度下降法分别为0.9;
    主干网。为了从三个多模态数据集训练所提出的网络用于目标检测,选择了两个主干。实验采用DMF-Net、SA-Net和MF-Net主干网进行。

  3. 数据集
    实验区域包括来自无人机和四足移动机器人平台的倾斜和垂直图像。
    表2显示了用于目标检测的多模态数据集的详细信息。
    在这里插入图片描述
    本研究利用车辆检测、杂草感染图和人类检测三种不同场景的数据集(表3)对所提出的方法进行了评估。UAVid数据集[9]由无人机平台的RGB斜视图图像组成,用于车辆检测。UAVid数据集由一个时间序列数据集组成,目标是从倾斜无人机角度进行城市场景分析的语义标记。使UAVid数据集成为标准数据集的特征是:(1)时间序列高分辨率图像;(2)不同的景观类型,包括不同类型的车辆。杂草感染图数据集[40]由位于瑞士Eschikon的Mavic Pro平台上的红杉传感器的垂直视图的颜色推断图像组成,并以其为例研究作物和杂草检测评估。2017年4月5日,Eschikon农田上的作物被播种,并排成50厘米的行。在数据采集时,其生长期约为一个月,作物和杂草的大小在5 - 10厘米之间。PST900数据集[15]由来自四足移动机器人平台的倾斜视图的多模态图像(热)组成。该数据集包括同步和校准的热时序图像,尺寸为1280 × 720像素,用于实时目标检测。
    在这里插入图片描述

结果

  1. 指标
    为了评估预测目标和异常情况,使用Jaccard指数(J)、正确性©和概率熵(E)的标准质量度量𝑝𝑛
    与输入的直方图𝐼相关联,它们的计算方法如下:
    在这里插入图片描述

  2. 特征提取的不确定性分析
    在本节中,我们评估多模态图像特征提取步骤的定性不确定性。在实际操作中,CNN通过学习第一层的几何形状,然后进化到学习更深层块中输入数据的表示,从而获得更准确的目标预测。这个被提出的方法由输入层(多模态数据)、隐藏块(所建议的层)和输出(目标)组成,而隐藏块可以包括从低级属性到高级属性的多层。图3显示了所建议模型的低级和高级表示提取之间的区别。
    在这里插入图片描述

  3. 摘要结果
    为了评估每个场景下训练网络的性能,在训练集之外选择了一个测试集和一个支持集。多模态目标和异常的结果如图4所示。测试集中的植被区域和阴影区域是目标定位的一个重要挑战。为了改进训练集,我们添加了包括各种草和树覆盖的时间序列数据,以使模型在存在植被区域的情况下具有目标预测的稳定性。此外,使用来自各种无人机和四足机器人图像的包含阴影的多模态时间序列图像来训练所提出的方法,以了解模型如何解决该问题。
    在这里插入图片描述
    表4显示了使用所提出的方法进行的多模态试验的数值预测,与不同的Jaccard指数和熵指标进行了比较。如表4所示,RGB图像中车辆检测的Jaccard指数和熵值分别为89.1%和31.30%,彩色红外图像中作物和杂草图**的Jaccard指数和熵值分别为92.83%和24.33%,热图像中人体检测的Jaccard指数和熵值分别为85.40%和34.00%。该模型对给定的多模态图像进行分类所需的计算成本较低,因此可以将其集成到无人机等实时应用中。
    在这里插入图片描述

  4. 少样本学习的比较研究和经典方法
    本节采用支持向量机(Support Vector Machine, SVM)[41]和随机森林(Random Forest, RF)[42]两种经典方法进行比较。为了公平比较,本研究中所有方法从一开始就使用相同的训练数据集(第2.3节)和特征提取方法(第2.2节)进行训练,这些方法用于训练所提出的少样本学习模型。本研究的定量评估表明,本文方法、SVM和RF的平均IoU得分分别约为78%、47%和39%。此外,所提出的少样本学习模型预测与SVM和RF的定性比较如图5所示。定性结果表明,所提出的少样本学习模型能够检测到场景中较小的目标区域,同时产生可靠的结果。
    在这里插入图片描述

讨论

表5显示了无人机图像中杂草和车辆检测的定量结果。在本研究中,我们将提出的方法与新方法fe - net[32]进行了比较。试验阶段静态和动态目标检测结果可视化如图6、图7、图8所示。对于45张RGB、60张CIR和60张热测试图像,该模型对车辆、杂草和人的平均检测准确率分别为88.4%、82.2%和86.25%,而对车辆、杂草和人的平均熵分别为21.9%、23.7%和20.75%。因此,在大尺度遥感图像目标检测中,IoU与熵值之间存在反比关系。实验结果验证了所提出的少样本学习模型的有效性。这项工作有三个独特的方面:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(1)我们的研究结果表明,所提出的少样本学习模型具有更好的泛化性能,并且优于其他方法。对于多模态图像中的每个数据集,与其他评估方法(如PFE-Net (作为少镜头学习模型)、SVM和RF)相比,所提出的少镜头学习模型获得了最高的mIoU。因此,与现有模型和经典模型相比,提高了目标检测精度;
(2)据我们所知,我们已经提出了第一个基于不确定性估计的RGB, CIR和热模态的低计算成本的多模态少样本学习方法;
(3)该方法利用多模态图像的独特特征对挤压-注意层进行特征提取。
在本小节中,我们提出了一项模型简化测试测试,以比较一些不同的模型变体,如不同的训练损失函数、多模态和CNN主干,并证明我们的设计选择是合理的。表6显示了一些模型简化测试结果,以研究所提出方法的行为。
在这里插入图片描述

  1. 训练损失函数
    在本小节中,我们用不同的损失函数对所有模型进行评估。虽然采用加权交叉熵(Weighted Cross entropy, WeC)损失函数的方法取得了很好的效果,但我们还使用另外两个损失函数进行了测试,分别是Dice loss (DiL)[43]和Weighted bootstrap Cross-entropy (WBC)[44]。我们使用地面真值图和模型预测之间的绝对误差来训练我们的网络。
  2. 混合模态
    在红、绿、蓝、近红外和红边通道等不同的数据模式下对所提出的目标检测方法进行了测试。
  3. CNN骨干
    该模型可以用不同的主干网进行目标检测。我们选择了两个骨干进行模型简化测试。实验采用ResNet-101和HRNet进行。V2[45]主干。

总结

无人机和四足机器人平台的目标定位已经成为现实世界应用的主要工具,如交通管理的车辆监控,智能农业的杂草地图,以及搜索和救援任务的人类检测。在无人机图像的几次学习中使用不确定性估计的目标分割可以潜在地提高对小型训练数据集的场景理解,而许多目标检测方法似乎可以理解大型训练数据集的单次定位。针对一些遥感核心问题,提出了一种新的少样本学习体系结构。我们的方法在许多具有挑战性的遥感数据集上优于最先进的模型。
在这项研究中,我们进行了三个多模态实验,用于从无人机和四足机器人时间序列图像中检测目标,该实验基于一种新的挤压-注意方法,用于从小型训练数据集中进行少样本学习。该方法在各种现实任务中取得了令人印象深刻的表现,可以分为三类:杂草和作物图;车辆及交通监控;还有人体追踪。为了提高训练模型在三维目标重建中的泛化能力,在未来的研究中还需要发展模型体系结构。

作者贡献

概念化、M.K.-M;完成了方案的实施,m.k.m。和R.S.-H。;写作-原稿准备,m.k.m;写作-评论和编辑,m.k.m。和R.S.-H。;理论指导,R.S.-H;项目管理,m.k.m。所有作者都已阅读并同意稿件的出版版本。

数据可用性声明

UAVid数据集(图像和标签)可在[9]:https://uavid.nl/(于2022年3月19日访问);WeedMap数据集(图像和标签)可在[40]:https://projects.asl.ethz.ch/datasets/doku.phpid=weedmap:remotesensing2018weedmap(于2022年3月19日访问);PST900数据集(图像和标签)可在[15]:https://drive.google.com/file/d/1hZeM-MvdUC_Btyok7mdF00RV-InbAadm/view(于2022年3月19日访问)。

  • 18
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值