[VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking

最新推荐文章于 2025-02-26 17:14:32 发布

Eavan努力努力再努力

最新推荐文章于 2025-02-26 17:14:32 发布

阅读量4.6k

点赞数 3

分类专栏：目标跟踪文章标签：目标跟踪计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_37412775/article/details/124645170

版权

26 篇文章

订阅专栏

先贴个baseline的流程图：
在这里插入图片描述

Abstract

背景：随着多模态传感器的普及，可见光-热成像（RGB-T）目标跟踪将在温度信息的指导下实现稳健的性能和更广泛的应用场景。

科学问题：然而，缺乏成对的训练数据是当前RGB-T追踪的主要瓶颈。因为收集高质量的RGB-T序列是非常耗时费力的，最近的benchmarks仅提供了测试序列。

本文：

可见光和热成像的优缺点：

类别	特点
可见光	当目标较黑/下雨/有雾/其他极端条件时，可见光提供的信息有限。
热成像	作为补充信息，对光照变化不敏感，但在目标和背景温度相近时，热成像难以区分前景/背景。
综合	将可见光-热成像(RGB-T)数据综合在一起可以提供互为补充的信息。

RGB-T已有数据集及相关工作：

RGB-T已有数据集	RGB-T相关工作	缺点
a gray-scale RGB-T(50 videos)；RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234)	Li: 提出用于学习模态共享和模态特定表示的多适配器网络；Zhang：利用属性标注设计了实时的RGB-T追踪器；Zhang：将DiMP扩展至RGB-T追踪，在VOT2019-RGBT上获得了最好的名次	1. 这些数据集共包含了284个不重复的短期序列，追踪器需要在其他数据集上训练，限制了算法的泛化能力；2. 测试序列由监控设备捕获，视野/长度/图像质量有限

本文贡献：

创建高质量的可见光-热成像大规模跟踪数据集VTUAV。此外，该数据集可实现短期/长期/分割掩码预测任务的评测，还在帧和序列级别提供了属性注释，可以满足训练特定挑战跟踪器的要求。
提出RGB-T的baseline——HMFT，其以分层混合框架统一了不同模态的混合策略（图像混合，特征混合，决策混合）。在GTOT, RGBT21-, RGBT234, VTUAV数据集上都进行了不同混合类型的实验。

数据集名称	介绍
OTCBVS	6个序列，7200帧，过时了。
LITIV	2012，9个视频片段，6300个图像对，过时了。
GTOT	2016， grayscale-thermal跟踪数据集，7800帧，包含各类极端条件算法稳定性的测试
RGBT210	210个视频，超过104K帧
RGBT234	RGBT210的扩展版本，234个序列
VOT-RGBT	2019，60个序列，使用EAO评价算法精度和鲁棒性
LSS	可见或热图像是使用图像转换或视频着色方法从另一种模态生成的。
LasHeR	包含1224个短期视频，730K帧，多场景多角度

混合类型	具体介绍	特点
图像混合	彭等人利用一组层通过共享异构数据的权重来学习互补信息。	能提供多模态的共享表达，高度依赖于图像对齐，还没有被充分探索
特征混合	包含2类：模态交互和直接混合。模态交互在另一种引导下对单模态特征进行细化，然后将两种模态的特征结合起来从而实现综合表示；直接混合先联合多模态特征然后直接级联/注意力技术得到一个混合的特征	更高的灵活性，能被大量不成对的数据训练，易于设计实现性能显著提升。
决策混合	独立建模每个模态。JMMAC采用多模态融合网络通过考虑模态级别和像素级别重要性来集成响应。罗利用独立框架在RGB-T数据中进行跟踪，然后通过自适应加权组合结果。	避免了不同模态的异质性，对模态配准不敏感

Large-scale sequences with high diversity
500个序列with 1664549个RGB-T图像对，图像分辨率：1920x1080，250个序列的训练集（207个短时+43个长时）+250个序列的测试集（176个短时+74个长时）。
【注】：目标离开视野连续超过20帧定义为长时跟踪。

VTUAV和其他数据集的比较如下图：
在这里插入图片描述

Generic object and scene category
体现VTUAV数据集场景及目标多样性（5个超类，13个子类，2个城市中的15个场景，325个序列在白天+175个在晚上）的统计图如下：
Hierarchical attributes
有序列级别还有帧级别的标注。共13个属性。介绍如下：
Alignment