[VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking


先贴个baseline的流程图:
在这里插入图片描述


Abstract

背景:随着多模态传感器的普及,可见光-热成像(RGB-T)目标跟踪将在温度信息的指导下实现稳健的性能和更广泛的应用场景。

科学问题:然而,缺乏成对的训练数据是当前RGB-T追踪的主要瓶颈。因为收集高质量的RGB-T序列是非常耗时费力的,最近的benchmarks仅提供了测试序列。

本文

  • 构建了一个可见光-热成像UAV跟踪大规模数据集(VTUAV),包含500 个序列具有 170 万个高分辨率(1920*1080 像素)帧对。
  • VTUAV数据集考虑了不同场景下的综合应用(短期跟踪、长期跟踪和分割掩码预测)。
  • VTUAV中提供了从粗到细的属性注释,其中提供了帧级属性用于探索特定跟踪器的性能。
  • 设计了RGB-T baseline,称为分层多模式融合跟踪器 (HMFT)

1. Introduction

可见光和热成像的优缺点

类别特点
可见光当目标较黑/下雨/有雾/其他极端条件时,可见光提供的信息有限。
热成像作为补充信息,对光照变化不敏感,但在目标和背景温度相近时,热成像难以区分前景/背景。
综合将可见光-热成像(RGB-T)数据综合在一起可以提供互为补充的信息。

RGB-T已有数据集及相关工作

RGB-T已有数据集RGB-T相关工作缺点
a gray-scale RGB-T(50 videos);RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234)Li: 提出用于学习模态共享和模态特定表示的多适配器网络;Zhang:利用属性标注设计了实时的RGB-T追踪器;Zhang:将DiMP扩展至RGB-T追踪,在VOT2019-RGBT上获得了最好的名次1. 这些数据集共包含了284个不重复的短期序列,追踪器需要在其他数据集上训练,限制了算法的泛化能力;2. 测试序列由监控设备捕获,视野/长度/图像质量有限

本文贡献

  • 创建高质量的可见光-热成像大规模跟踪数据集VTUAV。此外,该数据集可实现短期/长期/分割掩码预测任务的评测,还在帧和序列级别提供了属性注释,可以满足训练特定挑战跟踪器的要求。
  • 提出RGB-T的baseline——HMFT,其以分层混合框架统一了不同模态的混合策略(图像混合,特征混合,决策混合)。在GTOT, RGBT21-, RGBT234, VTUAV数据集上都进行了不同混合类型的实验。

2. Related Work

2.1 RGB-T tracking benchmarks

数据集名称介绍
OTCBVS6个序列,7200帧,过时了。
LITIV2012,9个视频片段,6300个图像对,过时了。
GTOT2016, grayscale-thermal跟踪数据集,7800帧,包含各类极端条件算法稳定性的测试
RGBT210210个视频,超过104K帧
RGBT234RGBT210的扩展版本,234个序列
VOT-RGBT2019,60个序列,使用EAO评价算法精度和鲁棒性
LSS可见或热图像是使用图像转换或视频着色方法从另一种模态生成的。
LasHeR包含1224个短期视频,730K帧,多场景多角度

2.2 RGB-T tracking algorithms

混合类型具体介绍特点
图像混合彭等人利用一组层通过共享异构数据的权重来学习互补信息。能提供多模态的共享表达,高度依赖于图像对齐,还没有被充分探索
特征混合包含2类:模态交互和直接混合。模态交互在另一种引导下对单模态特征进行细化,然后将两种模态的特征结合起来从而实现综合表示;直接混合先联合多模态特征然后直接级联/注意力技术得到一个混合的特征更高的灵活性,能被大量不成对的数据训练,易于设计实现性能显著提升。
决策混合独立建模每个模态。JMMAC采用多模态融合网络通过考虑模态级别和像素级别重要性来集成响应。 罗利用独立框架在RGB-T数据中进行跟踪,然后通过自适应加权组合结果。避免了不同模态的异质性,对模态配准不敏感

3. VTUAV Benchmark

3.1 Benchmark Features and Statistics

  • Large-scale sequences with high diversity
    500个序列with 1664549个RGB-T图像对,图像分辨率:1920x1080,250个序列的训练集(207个短时+43个长时)+250个序列的测试集(176个短时+74个长时)。
    【注】:目标离开视野连续超过20帧定义为长时跟踪。

VTUAV和其他数据集的比较如下图:
在这里插入图片描述在这里插入图片描述

  • Generic object and scene category
    体现VTUAV数据集场景及目标多样性(5个超类,13个子类,2个城市中的15个场景,325个序列在白天+175个在晚上)的统计图如下:
    在这里插入图片描述
  • Hierarchical attributes
    有序列级别还有帧级别的标注。共13个属性。介绍如下:
    在这里插入图片描述
    在这里插入图片描述
  • Alignment

VTUAV在每个视频的初始帧中对不同模态图像对齐并将其应用于所有帧。 注意到大多数帧都实现了良好的对齐。

3.2 High-quality Annotation

  • Bounding boxes
    每间隔10帧对目标提供了稀疏的标注。稠密边界框注释通过SOTA的跟踪算法获得。共326961高质量的边界框标注。
  • Segmentation masks
  • Attribute annotations
    提供帧级别的属性标注。301678帧,430960个属性标注,500*13个序列级别的注释。

3.3 Evaluation Metrics

以OPE方式运行,评价指标:maximum success rate (MSR,IoU大于一定阈值的帧的占比) and maximum precision rate (MPR,中心距离小于阈值的帧的占比)。

4. Hierarchical Multi-modal Fusion Tracker

包含3种层次的混合(CIF图像混合,DFF特征混合,ADF决策混合)

  • CIF:致力于学习两个模态间的共享模式;
  • DFF:引入异构表示的通道组合;
  • ADF:考虑判别和互补分类器的响应来提供最终目标候选者。
    在这里插入图片描述

5. Experimental Analysis for RGB-T Tracking

5.1 Short-term Evaluation

在这里插入图片描述

5.2 Long-term Evaluation

HMFT_LT:是HMLT的变体,HMLT作为局部追踪器(目标在视野中),将GlobalTrack作为全局追踪器(目标离开视野),RTMDNet作为tracker switcher。
在这里插入图片描述

5.3 Ablation Study

在这里插入图片描述

5.4 Qualitative Analysis

在这里插入图片描述

6. Experimental Results on VTUAV-V Subset

VTUAV-V是VTUAV的子集,只包含可见光的图像。

6.1 Short-term Evaluation

在这里插入图片描述

6.2 Long-term Evaluation

在这里插入图片描述

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值