集智书童 | FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

双木的木

已于 2024-10-09 21:42:02 修改

阅读量1.6k

点赞数 26

分类专栏： CV-目标跟踪专栏深度学习拓展阅读 DETR专栏文章标签：人工智能 python 深度学习算法 transformer llama 目标跟踪

于 2024-10-09 21:41:04 首次发布

本文链接：https://blog.csdn.net/csdn_xmj/article/details/142796915

版权

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

鱼的生长、异常行为和疾病可以通过图像处理方法进行早期检测，这对工厂水产养殖具有重要意义。然而，水下反射和某些鱼类因素（如高相似性、刺激性迅速游泳和多目标遮挡）给多目标鱼跟踪带来了挑战。为了解决这些挑战，本文建立了一个复杂的虚拟多场景跟踪数据集，并提出了一个实时端到端鱼跟踪模型，称为FMRFT。

在该模型中，引入了低功耗的Mamba In Mamba (MIM)架构到跟踪算法中，实现多帧视频时间戳记忆和快速特征提取，从而提高了多鱼视频连续帧相关分析的效率。此外，利用RT-DETR的优越特征交互和先验帧处理能力，为鱼提供了一个有效的跟踪算法。

通过将QTSI Query 交互处理模块集成到模型中，该模型可以有效地处理被遮挡的目标和冗余跟踪帧，从而实现更准确和稳定的鱼跟踪。在数据集上进行训练和测试后，该模型实现了IDF1分数90.3%和MOTA准确率94.3%。

实验结果表明， proposed FMRFT模型有效地解决了鱼类种群中高相似性和相互遮挡的挑战，使得在工厂养殖环境中实现准确跟踪。

1 Introduction

随着养殖业的快速发展，实时监测和评估鱼的状态对于提高养殖效率和增强管理实践至关重要。鱼类对光、水质和养殖密度等外部刺激产生各种行为反应。通过跟踪鱼类状态，农民可以深入了解鱼类的健康状况、环境适应能力等方面。与基于传感器或人工观察的传统方法相比，计算机视觉技术在鱼类跟踪方面具有实时监测、非接触观察和非干扰等优势，可模拟人类视觉来识别和跟踪目标。这种方法在大规模养殖业智能管理方面是一种有效手段。

多目标跟踪是计算机视觉领域的一个任务，专注于在视频序列中定位和跟踪多个目标。在这个领域已经出现了一系列的算法，其中最主要的两种策略是检测器驱动跟踪和 Query 驱动跟踪。检测器驱动跟踪的核心思想是首先使用一个目标检测算法在每个帧中识别目标。然后，匹配算法如DeepSort）、ByteTrack（Zhang, Sun, Jiang, Yu, Weng, Yuan, Luo, Liu和Wang，2022）或其他相关算法被用于在连续帧之间关联和匹配检测到的目标，从而实现目标的轨迹跟踪。这种方法的优势在于其依赖于一个强大的目标检测器，可提供准确的目标位置信息。然而，在涉及遮挡、灯光变化和快速目标运动的复杂场景中，方法仍面临巨大挑战。与之相比， Query 驱动跟踪是一个新兴的方法，将每个目标表示为一个 Query ，通常是一个特征向量，在视频序列中搜索和匹配目标。基于 Query 的跟踪方法特别擅长处理目标外观和遮挡的变化，由于利用目标特征的连续性，在复杂场景中表现出更高的鲁棒性。

尽管跟踪鱼类的任务通常比在物体跟踪中遇到的场景复杂得多。首先，如图1(a)所示，由于诸如呼吸和游泳等行为，不同生长阶段或相同期间个体鱼类的形态变化并不明显，这会增加目标识别的复杂性。其次，如图1(b)所示，鱼类水槽中不同角度的光线条件变化，以及光的反射、散射和吸收，会导致低对比度、低清晰度和图像褪色，从而阻碍目标的精确检测和跟踪。如图1(c, d)所示，鱼类在游泳时常会相互遮盖，尤其是在高密度水产业环境中，这种遮挡会给连续目标跟踪带来严重挑战。此外，氧气产生器产生的气泡、水中的饲料残留和传感器设备可能在图像中的鱼类目标具有相似的纹理或亮度特性，进一步复杂化了鱼类跟踪。

为应对这些挑战，本文提出了一种实时鱼类跟踪模型，FMRFT，用于在复杂工厂养殖场景中追踪鱼类。本文的主要贡献如下：

创新框架融合：作者将Mamba In Mamba (MIM)和RT-DETR创新性地融合在现有MOTR框架内，以实现对鱼类目标的准确跟踪。这种融合策略提高了模型在复杂环境中有效应对遮挡和相似挑战的能力。
新颖的 Query 时间序列交集（QTSI）：作者提出了一种新颖的 Query 交互模块（QTSI），通过计算跟踪 Query 、检测 Query 和实框之间的交叠度（IoU）来实现信息交互和融合，从而在训练阶段减少对单一跟踪 Query 的依赖，并有效防止产生多个冗余检测帧。
增强数据融合方法（Fusion MIM）：为了进一步提高特征提取的深度和广度，作者设计了新的数据融合方法，即Fusion MIM，通过在不同尺度的MIM特征信息深度融合来增强模型通过特征交互提取多个层面的特征的能力。
新颖的时间跟踪 Query 交互模块（MQIM）：作者引入了一种Mamba Query 交互模块（MQIM），通过更深入地与解码层输出进行交互来使跟踪 Query 得以学习。这种交互机制增强了模型在动态场景中适应目标变化的能力，并提高了跟踪稳定性。
新建立的多目标鱼类跟踪数据集：作者已经建立了一个新的多目标鱼类跟踪数据集，该数据集包括各种养殖场景中的鲟鱼跟踪数据，共包含8000张高质量的鲟鱼跟踪图像。该数据集为鱼类行为分析和健康状况评估提供了宝贵的视觉资源。

本文其余章节的要点如下：第二章回顾了鱼类跟踪的前期工作，并简要介绍了Mamba和DETR模块；第三章详细介绍了所提出的FMRFT方法；第四章进行了比较和消融实验，并呈现了实验结果的视觉化。最后，第五章总结了本文，并对未来的研究提出了建议。

2 Related Work

多目标跟踪（MOT）是计算机视觉领域的一个重要技术，广泛应用于自动驾驶、智能监控和行为识别等领域。然而，多目标跟踪也面临着遮挡、变形、运动模糊、拥挤场景、快速运动、光照变化和尺寸变化等挑战，这些挑战同样出现在单目标跟踪中。此外，多目标跟踪还涉及到领域特定的复杂挑战，例如轨迹的初始化和终止，以及类似目标的相互干扰。因此，多目标跟踪仍然是图像处理

最低0.47元/天解锁文章