摘要
对于自动识别系统来说,解释多模态数据并绘制目标和异常的能力非常重要。由于训练阶段的多模态时间序列数据标注成本高、耗时长,来自无人机和四足移动机器人平台的多模态时间序列图像理解对遥感和摄影测量来说是一项具有挑战性的任务。在这方面,由于空中和地面平台上的数据有限,稳健的方法必须在计算上成本低,但又足够精确,以满足确定性措施。在本研究中,提出了一种基于挤压和注意力结构的少样本学习架构,用于多模态目标检测,使用来自无人机和四足机器人平台的时间序列图像和小型训练数据集。为了构建稳定的目标检测算法,从有限训练数据的多模态时间序列图像中开发了一种压缩-注意结构作为优化方法。提出的架构在三个具有多种模式(例如,红-绿-蓝,彩色红外和热)的数据集上进行了验证,获得了具有竞争力的结果。
关键词:多通道;时间序列图像;机器人;目标检测;少样本学习。
介绍
在大规模摄影测量和遥感观测(如无人机成像)中,由于目标和背景的光谱相似性,多模态图像中的视觉目标检测是一个难题[1]。在现实世界的应用中,来自城市地区的各种地理空间信息在创建和分析数据集时可能会造成困难,因为很难找到符合他们学习偏好的正确方法。无人机成像是城市尺度下不同目标的静态和动态目标检测的良好解决方案[2]。无人机和四足移动机器人配备多模态传感器(如RGB、彩色红外和热传感器),是基于时间序列图像[3,4,5]的现实场景高分辨率场景理解的一种高效、低成本的方法,如作物和杂草监测、交通和车辆管理、危机管理的搜救任务。因此,目标检测是从时间序列图像中理解场景的重要任务[6,7,8]。在一个小的训练数据集上找到一个优化的算法是目标预测及其实际应用的关键挑战。
在无人机成像中,提出了一种基于全卷积网络(FCN)、扩张卷积神经网络(DCNN)、U-Net和多尺度扩张的新型编码-解码深度学习方法,用于从倾斜时序图像中预测多个目标 [9]。此外,提出了一种基于编码器-解码器模型的多任务学习方法,用于从多模态无人机图像中检测车辆和建筑物 [10]。Gao et al(2021)提出了一种基于全卷积一级目标检测(FCOS)的少样本检测器,用于无人机图像中的车辆、储罐和飞机检测[11]。此外,还提出了一种基于少样本学习方法(也称为CenterNet)的基于RGB图像的无人机(即无人驾驶飞机)的植物定位和计数技术。本研究的定量评估表明,改进的CenterNet架构的平均精度约为95%[12]。设计了一个多流框架和一种深度多模态学习方法,用于从空间外观、无人机摄像机运动和场景结构等方面评估无人机视频的美学质量 [13]。 Lu 和Koniusz(2022年)提出了一种基于RGB图像的不确定性学习的多类目标关键点检测(FSKD)管道,用于未知物种的识别 [14]。在四足移动机器人视觉方面,提出了一种基于ERFNet、MAVNet、U-Net、Fast-SCNN、MFNet和RTFNet的多模态时序图像的高效研究方法,用于灭火器、背包、电钻和幸存者的识别 [15]。CNN中的编码器块(由编码函数𝑦 = 𝑓(𝑥)表示)将时序图像输入压缩到隐含空间中,而解码器块(𝑧 = ℎ(𝑦))则旨在从隐含空间中预测目标。 Unal (2021年)提出了一种基于卡尔曼滤波器和深度学习的视觉目标检测方法,用于从RGB街景图像中进行人体跟踪。在这项研究中,使用了卡尔曼滤波器来估计机动目标的位置、速度和加速度。Kiyak和Unal(2021)提出了四种深度学习模型(即深度卷积神经网络(DCNN)、带微调的深度卷积神经网络(DCNNFN)、带深度卷积神经网络的迁移学习(TLDCNN)和带迁移学习的微调深度卷积神经网络(FNDCNNTL))来检测小型飞机[17]。在Han等人(2022)的研究中,他们将元学习与跨模态表示相结合,将少数样本学习方法(又称为FSOD)应用于基于RGB街景图像的物体检测任务中[5]。为实现在无人机或四足移动机器人等传感器视角和姿态变化的情况下也能保持稳定的目标检测精度,可以采用多模态少数据样本学习方法 [18,19,20,21,22]。根据相关文献,一些研究表明,在实际应用中,由于缺乏针对像素级的训练,少数样本学习模型在实际应用中的表现不佳,这一问题尚未在相关研究中得到充分考虑;此外,由于仅使用单模态数据进行训练,导致模型在不同平台上的泛化能力较差。
本研究提出了一种基于挤压-注意力结构的少样本机器学习架构,用于基于无人机和四足移动机器人平台的时序图像的多模态目标检测,并使用小型训练集。为了在目标检测中构建具有稳定性的算法,我们从有限的训练数据中提取多模态时序数据,并开发了一种名