BU-TIVThermal Infrared video benchmark BU-TIV数据集

最新推荐文章于 2025-02-26 17:14:32 发布

_helen_520

最新推荐文章于 2025-02-26 17:14:32 发布

阅读量2.2k

点赞数 1

分类专栏：背景建模与前景提取

本文链接：https://blog.csdn.net/haronchou/article/details/106070059

版权

背景建模与前景提取专栏收录该内容

31 篇文章

订阅专栏

介绍了一个新的热红外视频基准TIV，旨在解决多种视觉分析任务，包括目标检测、跟踪及计数，尤其针对低分辨率下的行人和蝙蝠。数据集包含6万帧，涵盖多视角和高密度场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据集地址：http://csr.bu.edu/BU-TIV/BUTIV.html

Topic of Interest: 目标检测、计数、跟踪
Object detection, counting and tracking with single/multiple views in infrared videos

Sensors:
FLIR SC8000

Data Details:
The benchmark includes over 60k frames, hundreds of annotations and camera calibration files for multi-view geometry. Sequences are designed for testing different vision tasks:

Tracking single pedestrian at low resolution. frame size:1024x640 低分辨率下的单个行人跟踪
Tracking single flying bat at low resolution. frame size:1024x512 低分辨率下的单个蝙蝠跟踪
Tracking multiple objects (pedestrian, car, bicycle, motorcycle). frame size:1024x512 多目标跟踪（行人、汽车、自行车、摩托车）
Tracking multiple flying bats. frame size:1024x1024 多目标蝙蝠跟踪
Tracking multiple people with planar motion from multiple views. frame size: 512x512 多视角下的多个行人跟踪
Tracking multiple flying bats in 3D from three views. frame size: 640x512 三个视角下的多蝙蝠跟踪
Counting flying bats with high density. frame size: 640x512 and 1024x1024 高密度下的蝙蝠计数

Requested Citation Acknowledgment:
IEEE OTCBVS WS Series Bench
Zheng Wu, Nathan Fuller, Diane Theriault, Margrit Betke, "A Thermal Infrared Video Benchmark for Visual Analysis", in Proceeding of 10th IEEE Workshop on Perception Beyond the Visible Spectrum (PBVS), Columbus, Ohio, USA, 2014.

A Thermal Infrared Video Benchmark for Visual Analysis

Paper阅读——关于数据集的说明

摘要

我们在此发布了一种新的热红外视频benchmark，称为TIV，用于各种视觉分析任务，包括杂波中的单目标跟踪、单或多个视角下的多目标跟踪。分析大型群体的运动模式，并对飞行中的野生动物进行普查。我们的数据描述了真实的世界场景，比如大量的蝙蝠从洞穴中出现，一条拥挤的街道观看马拉松比赛，学生在课间走过中庭。 我们还介绍了这些任务的基线方法baseliine method和评估协议evalutaion protocols。我们的TIV benchmark丰富并多样化的视频数据集可供研究社区使用的热红外镜头，这带来了新的和具有挑战性的视频分析问题。我们希望TIV benchmark将有助于community统一以更好地理解这些有趣的问题，产生新的想法，并将其作为比较解决方案的测试平台。

1. Introduction

在过去的十年中，计算机视觉研究的快速增长主要与可见光传感器有关。不可见光谱传感器没有得到广泛使用，因为最初，低成本相机的空间分辨率差且动态范围窄，而具有更好图像质量的相机对于许多研究人员来说价格过高。传感器技术现已发展到某种程度，可见距离传感器已在学术界和工业界重新引起研究人员的注意。通过我们的工作，我们打算满足社区对于现在流行的不可见范围传感器即红外热像仪的综合基准的需求。该无源传感器捕获场景及其物体发出的红外辐射。热成像最初是为工业和军事用途而开发的，例如监视和夜视任务。最近的研究已经超越了传统的任务，将热成像技术应用于野生动物的监测，无创食品检查和热量损失检测[1]，[2]。我们的目标是为研究社区提供各种视频序列，以解决各种常见的计算机视觉问题。提出的benchmark带有大量高质量的标注annotations，以促进定量评估以及各种不同的检测和跟踪算法的比较。

过去已经发布了一些热红外数据集，例如OTCBVS Benchmark OTCBVS Benchmark ，LITIV Thermal-Visible Registration Datase红外-可见光 registration 数据集[3]，AIC红外-可见光的夜间数据集[4]和ASL热红外数据集。 [5]（表I）。通常，这些数据集专注于特定的生物识别应用程序或涉及可见光-红外的多光谱系统，并且是场景中对象的特写视图。对于诸如目标检测和跟踪之类的常规任务，由于这些数据集的图像分辨率低，视频持续时间短，而且最重要的是，缺乏具有挑战性的现实环境中视觉事件的复杂性，因此将这些数据集作为benchmark的用途受到限制。相比之下，我们的新热红外视频（TIV）数据集是由高分辨率高速相机（(FLIR SC8000, FLIR Systems, Inc., Wilsonville, OR）收集的，具有一系列精心设计的记录协议 recording protocols和预处理步骤preprocessing steps。 TIV benchmark测试涵盖了五项常见的计算机视觉任务：

混乱背景下跟踪单个对象；
从单个视图跟踪多个对象；
从多个视图跟踪多个对象；
视觉计数；
群体运动估计。

另外，通常需要背景提取和物体检测作为解决方案的一部分。 TIV中包含的感兴趣的对象类别是行人，马拉松运动员，自行车，车辆和各种分辨率的飞行动物（某些快照，请参见图1）。到目前为止，TIV由63,782帧组成，记录了数千个对象；活动更新正在进行中。据我们所知，这是可供公众使用的最大的红外热像仪数据集。

2. TIV 数据集描述

我们的TIV数据集包含七个不同的场景，其中两个是室内场景。除以前发布的序列Davis08-sparse，Davis08-dense，Davis08-counting外，大多数数据都是使用FLIR SC8000摄像机（FLIR Systems, Inc., Wilsonville,OR）记录的[8]。完整分辨率为1024×1024，但是我们将裁剪后的图像用于某些序列，以便关注感兴趣的区域。每个像素用16位表示，其值通常在3,000至7,000单位的未校准温度之间。根据场景中物体的速度，将帧频设置为5至131 fps。序列的完整列表在表II中给出。

热像仪通常会表现出固定的噪声模式，这种噪声是由于传感器在像素阵列上的响应不均匀而引起的——非均匀性噪声校正。为了方便用户，在应用“非均匀两点校正预处理——nonuniform two-point correction pre-process” [9]，[10]之后，benchmark包括原始数据和图像数据，其中两个强度统一的依次进行成像。对于每个像素，图像的测量强度ym和校正后的强度yc之间的差表示为线性近似值：

根据冷热测量，可以为每个像素计算乘法增益a和加法偏移b。非均匀校正的输出是通过从原始输入ym减去近似差Δy来获得的。图2中给出了非均匀校正前后的示例图像。

TIV中七个场景中的四个具有多视图支持。当使用多台摄像机时，所有摄像机都与信号发生器同步，该信号发生器同时触发记录。 TIV包含相机校准信息。对于平面运动planar motion（Atrium和Lab），估计了基于homography-based ground plane[11]。对于3D空间（Velifer和Davis13-medium）中的自由运动，我们应用了Theriault等人提出的自校准程序 [2]。

在以下各节中，我们将说明如何使用特定的TIV序列来解决五种不同的视觉分析任务。

A.通过杂波跟踪单个对象

通过杂波跟踪单个对象是计算机视觉中最活跃的研究主题之一[12]。该任务通常从手动初始化开始以指定感兴趣的对象。然后在整个序列中跟踪对象。对象可能会经历外观变化，与干扰物发生交互作用或更改其运动模式。大多数最先进的算法都专注于外观建模和搜索策略，并使用机器学习工具。它们通常不能直接应用于红外视频，因为这里还有其他独特的挑战。热辐射有助于前景物体在图像中脱颖而出，但是很多时候物体也会丢失外观细节。此外，很难区分具有相同热分布的多个物体。为了特别强调这两个问题，我们收集了Frio10和Marathon-5序列（图3）。

对于Frio10序列，任务是在colony地出现期间追踪10只指定的蝙蝠。蝙蝠的密度很高，而每个蝙蝠的分辨率却很小。存在频繁的部分或完全遮挡，但是每个蝙蝠的周期性运动模式都相对稳定。对于Marathon-5序列，任务是跟踪10条指定的在繁忙的人行道上和停放的汽车之间行走的行人。在这种情况下，背景噪声较大，并且也经常发生遮挡。 鉴于图像中对象的分辨率较低，我们仅为每个对象注释一个点并平滑轨迹。

基线方法和评估。 为了初始化轨道，我们使用了第一帧或最后一帧中的注释。我们将这些称为“向前跟踪”和“向后跟踪”初始化。对于Frio10序列，baseline是一种基于检测的方法，该方法应用对象检测器并通过最近的邻居搜索来过滤对象的状态。对象检测器需要进行背景提取，并通过计算每个二进制断开的组件中局部具有最大强度的像素来定位对象。对于Marathon-5，baseline是一种基于强度的方法，使用归一化的相关性在下一帧中找到最佳匹配。当检测失败或相关度分数不够高时，两种方法都还应用线性动态运动模型来预测对象的位置。

为了评估baseline性能，我们在每个帧中计算了跟踪位置与地面真相之间的欧式距离。如果距离小于预定义的命中/未击中阈值 hit/miss threshold，则我们认为找到了很好的匹配项。在整个实验中，我们选择5个像素作为阈值，定位位置误差<5pixel，则认为成功定位了。关键指标“成功率success rate”定义为良好匹配的总数除以总帧数，success rate < 1。出于以下原因，我们不鼓励使用传统指标“平均距离误差” mean distance error：

1.跟踪器漂移时，误差可能会变得很大。 2.在我们的实验中，物体的分辨率很小，因此在物体区域内跟踪的像素位置不是至关重要的。 3. 5像素命中/未命中阈值足够小，以确保跟踪的位置落入可接受的信任区域。

这两个序列的基线方法的结果如图4所示。Frio10序列的平均成功率为51％，Marathon-5序列的平均成功率为23％，这表明在跟踪研究方面仍有很大的空间算法。在图4中，我们还观察到基线方法对初始化敏感，并且不能在大范围的条件下稳定运行。在可见光传感器跟踪领域，也已经看到许多跟踪算法的通用性不佳，即泛化能力差[12]。

B. Tracking Multiple Objects from a single view 单视角多目标跟踪

从单个视图跟踪多个对象的经典pipeline涉及对象检测object detection，temporal data association时间数据关联和对象状态估计object state estimation。这些步骤可以按顺序排列，也可以置于批处理模式。 我们推荐参考Wu的博士学位论文[13]，详细介绍了最新算法state of art of tracking multiple objects。除了检测含有噪声的对象之外，热图像分析的主要挑战是在存在相互遮挡的情况下解决数据关联的歧义。为了解决这些问题，我们收集了五个序列：Frio11和Marathon-1、2、3和4（图5）。对于Frio11序列，任务是跟踪在场景中飞行的所有蝙蝠。对于马拉松序列，任务是跟踪行人，自行车，摩托车和汽车。裁剪后的图像提供了两个不同的视点，以聚焦在关注区域上。我们在Frio11中为每个蝙蝠标注一个点，在Marathon中为每个对象标注边界。

基线方法和评估。对于蝙蝠序列，我们在此处采用的基线方法类似于Betke等人提出的顺序跟踪方法。 [14]。此方法通过在提取背景后搜索每个断开连接的组件的局部最大值来检测蝙蝠。然后，它通过双向匹配将检测结果顺序关联到对象，并应用贝叶斯滤波来估计每个蝙蝠的运动。对于马拉松序列，我们选择了具有sparsity-driven object detector稀疏驱动的对象检测器的批处理方法batch processing method（SDD-Net）[13]，该对象检测器可以处理场景中的相互遮挡。数据关联是通过网络流公式实现的data association was implemented with the network flow formulation。

对于马拉松序列的跟踪，使用了SDD-net进行批量处理，检测器使用了sparsity-driven的目标检测器，可以处理场景中的相互遮挡。数据关联使用网络流公式实现的。

我们使用流行的“ CLEAR MOT”指标[15]来评估基线方法的跟踪性能。多目标跟踪精度（MOTA，Multiple Object Tracking Accuracy）将结合误报检测率false positive detection rate，未命中率miss rate和身份切换率identity-switch三个评价指标为一个具有理想值100％的数字；多目标跟踪精度（MOTP，Multiple Object Tracking Precision）可测量ground-truth情况与跟踪器output输出之间的平均距离。对于边界框测量，精度是根据理想值1的区域重叠标准定义的。对于点测量，精度是基于理想值0的欧几里得距离。为了更好地评估质量，我们还报告了“Mostly Tracked（ MT（≥80％）轨迹，大部分丢失Mostly Losted（ML，≤20％）轨迹，磁道碎片Track fragmentations（FM，ground-truth轨迹被中断的次数）和身份切换（IDS，被跟踪的次数）轨迹会更改其匹配的地面真相）。这些指标取决于确定命中率/未命中率的用户定义阈值参数。如果检测与其匹配的ground-truth之间的距离小于（或大于）阈值，则检测为true positive。我们选择0.5作为区域重叠阈值，并选择15个像素作为Euclidian距离阈值。表III显示了两个TIV测试序列的基线方法[14]，[13]的结果。可以看出，由于前景和背景之间的高对比度，跟踪算法对于Frio11序列实现了较低的未命中率，但是无法处理频繁的相互遮挡并导致较高的ID切换错误。嘈杂的背景使马拉松序列更具挑战性，因为丢失了10％以上的物体。显然，即使对于最先进的算法，仍然有很大的空间可以提高这些序列的性能。