**
Towards More Flexible and Accurate Object Tracking with Natural LanguageAlgorithms and Benchmark.(2021-CVPR)
使用自然语言实现更灵活和准确的目标跟踪:算法和基准
本文主要是提取论文中的关键要点。
一.摘要
本文提出了一个专门用于语言跟踪的新基准,包括大规模数据集、强大且多样的基线方法。收集了2k个视频序列(总共包含1244340帧,663个单词)并分别分割1300/700用于训练/测试。为每个视频密集地标注一个英语句子和相应的目标对象边界框。在TNL2K中为目标跟踪任务引入了两个新挑战,即对抗样本和模态切换。提出了一种基于自适应局部-全局搜索方案的强基线方法,供以后的工作比较。相信这个基准将极大的促进自然语言引导跟踪的相关研究。
二.介绍
1.通常做法是在第一帧用边界框初始化目标对象,随着目标对象的移动调整BBox。但存在以下问题:
(1)第一帧的目标对象中有BBox,在实际场景中不方便初始化。
(2)初始化的BBox对于目标对象的表示可能不是最佳的。可能导致歧义。如,图像重叠,目标对象突然的外观变化。
2.本文贡献的三个方面:
①收集了一个包含2000个视频序列的大规模数据集-TNL2K。对每个视频,密集标注每一帧目标物体的位置信息,并为整个视频用一个英文句子标注。描述了目标对象的类别,形状,属性,特性和空间位置。为跟踪提供了丰富的细粒度外观信息和高级语义信息。
②提出了一种基线方法,可以自适应的在局部跟踪算法和全局接地模块之间切换。
③评估了四十多个基于BBox的跟踪器,使用不同的评估指标分析它们的性能。
三、通过自然语言跟踪
1.TNL2K数据集
为每个视频用英语注释一个句子,并为该视频中的每一帧注释一个边界框。
定义了每个视频序列的多个属性。提出的TNL2K具有17个属性,以便在特殊的情况下进行评估。
2.本文提出的方法:
提出了自适应跟踪和接地开关框架,用于根据自然语言规范进行跟踪。
将全局帧、复制的语言特征和空间坐标的视觉特征图连接在一起,并输入到核大小为1×1的卷积层中进行信息融合。将输出的特征图发送到接地模块,接地模块将输出目标物体的预测位置。
视觉接地的意思指的是将语言和用户的语境中相关的事物联系起来处理的过程。(只搜到有一篇博客这样说的,与自然语言生成有关)
AdaSwitcher模块给定视觉接地和视觉跟踪模块,可以分别从全局和局部视图捕获目标对象。AdaSwitcher模块来检测异常检测这种失败,一旦检测到异常,就将候选搜索区域从视觉跟踪切换到视觉接地,从而实现更稳健和准确的跟踪。
工作流程:置信度得分,BBox,结果图、响应图和语言嵌入分别是这项工作中被用作AdaSwitcher的输入。受不同帧贡献不同的事实启发,引入了注意力机制来对输入进行不同的编码。注意力权重可以通过多层感知器获得。之后,使用两个全连接层来确定我们是否应该将候选搜索区域从当前跟踪结果切换到接地结果。
Visual Grounding Module
视觉接地模块(Grounding module)以视频帧和自然语言描述作为输入。本模块可以帮助在开始时检测目标。
视觉接地:视觉接地指的是将语言和用户的语境中相关的事物联系起来处理的过程。自然语言生成系统利用计算机形成的视觉场景进行物体的描述。这种系统是采用一种“展示并告诉”的程序来训练的,该程序的过程是视觉场景搭配自然语言描述。
在tracking by natural language 任务中首先仅仅通过自然语言描述来定位目标对象。
①视频帧使用主干CNN获得第i帧视频的深度特征表示。帮助在开始时检测目标。
②对于自然语言,首先使用预训练的BERT将单词嵌入特征表示E=[e1,e2,…,eT],然后,将此功能馈入两个完全连接的层,然后复制到特征映射中。
后来将全局框架、复制的语言特征和空间坐标的视觉特征映射串联在一起,并以1×1的核大小送入卷积层进行信息融合。然后将输出的特征图发送到接地模块,接地模块将输出目标物体的预测位置。我们将这种视觉接地视为一种全局搜索过程。
问题1:自然语言是如何生成的?
问题2:视觉接地模块具体是使用什么方法通过输入的自然语言和视觉特征预测物体的位置?
这两个问题没有在论文中找到。
Visual Tracking Module
接地不足以实现高性能跟踪,因为它容易受到背景杂波的影响
本模块初始化了一个视觉跟踪器,该跟踪器基于在第一帧中从视觉接地预测的边界框,以局部搜索的方式定位目标对象。由于SiamRPN具有良好的性能,因此在实验中采用了它。
AdaSwitcher Module
原始方法:采用基于跟踪器的置信度来进行切换,但是置信度得分并不总是可靠的(有时候置信度得分非常高,但是却定位错了对象)
本文的方法:将视觉跟踪故障视为一种异常检测,并提出了一种新的AdaSwitcher模块来检测这种故障。一旦检测到异常(来自AdaSwitcher的预测大于预定义阈值),我们可以将候选搜索区域从视觉跟踪切换到视觉接地,以实现更稳健和准确的跟踪。
3.实施细则
将视觉跟踪和接地之间的切换视为一个二元分类问题。
4.基准结果
仅通过自然语言跟踪
仅通过BBox跟踪
只有全局搜索可能不足以实现鲁棒性跟踪。总体而言,全局场景的结构信息挖掘和离线学习确实有助于实现高性能的视觉跟踪。
通过自然语言和BBox跟踪
在三个基准数据集上的所有实验都验证了我们的跟踪器的有效性和优势。
5.TNL2K数据集的优势
LaSOT数据集:该基准只能用于联合语言和bbox的跟踪任务。
TNL2K数据集:我们的语言注释不仅体现了属性、类别、形状、属性以及与其他对象的结构关系,TNL2K数据集也可以仅用于自然语言的跟踪任务。
TNL2K提供了三种基线方法供将来的工作比较,包括BBox跟踪、语言跟踪、联合BBox语言跟踪。
第一帧不给框,只给自然语言的描述