On The Stability of Video Detection and Tracking 阅读笔记

On The Stability of Video Detection and Tracking

Abstract

文章提出了现在视频检测和追踪上极少关注的方面,即稳定性。并以提出一套同时考虑精确度和稳定性的视频检测评估标准作为研究的开始。对于精确度,扩展了现有的评估标准mAP(mean Average Precision).对于稳定性,将其分解成了三个方面:碎片误差(fragment error),中心位置误差(center position error),比例和比率误差(scale and ratio error)。并证明了两种评估标准,即精确度和稳定性,之间的相关性很小。最后,基于提出的评估标准,对现有的几种视频检测方法进行评估,并展示它们如何影响精确度和稳定性。

In this paper, we study an important yet less explored aspect in video detection and tracking – stability. Surprisingly, there is no prior work that tried to study it. As a result, we start our work by proposing a novel evaluation metric for video detection which considers both stability and accuracy. For accuracy, we extend the existing accuracy metric mean Average Precision (mAP). For stability, we decompose it into three terms: fragment error, center position error, scale and ratio error. Each error represents one aspect of stability. Furthermore, we demonstrate that the stability metric has low correlation with accuracy metric. Thus, it indeed captures a different perspective of quality. Lastly, based on this metric, we evaluate several existing methods for video detection and show how they affect accuracy and stability. We believe our work can provide guidance and solid baselines for future researches in the related areas.

Introduction

目标检测实际上是对图像中感兴趣的对象进行定位和分类的问题。

目前大多数研究工作都集中在still image detection上。Video Detection作为一个新兴的领域,和静态图像检测一样重要。为推动这方面的发展,Imagenet LSVRC 近年发起了视频检测的挑战。仅用了两年,视频检测的性能在mAP上从67.82迅速地提升到了80.83。

Loading

尽管发展迅速,但作者却观察到关于VID评估算法的一些让人不安的事实。例如,在图一中,两种算法在基于mAP的轨迹中得到了相同的结果。但经过人类判断,( a )的轨迹明显要优于( c ),因为( a )稳定的在图中的人身上,而( c )却非常地抖。

We would like to ask: What is the missing component in current VID evaluation?

目前的VID评估方法主要基于交并比(IoU),只考虑所有still image或轨迹(track-let)结果的总和,没有考虑稳定性。而目前并没有相关的评估标准来正确地量化这种现象。

文章将评估模型从以bounding box为中心转移到以轨迹为中心,即沿着每一条轨迹估算其稳定性,分别包括时间连续性,中心位置稳定性,比例和比率稳定性。并通过用新的评估标准对现有方法进行评估。实践结果也揭示了一个有趣的发现:现有的对精确度的评估标准和提出的稳定性评估标准相关性很小。

本文做的主要工作:

  • 提出一套稳定性评估标准来评估VID方法的性能
  • 用实验证明稳定性评估标准和现有的精确度评估标准相关性很低,因此两方面的评估是有意义的
  • 用提出的新标准评估了一些现有的方法

Related Work

这里概述了大部分关于Object Detection的方法。包括深度学习时代之前的Deformable Part Model (DPM)、Selective Search、MCG等,以及之后尝试将CNN应用到Object Detection之后的RCNN,FRCNN,Faster RCNN。并提到了一些利用temporal context information的方法。不过,所有的这些方法在后处理阶段都受到了限制。也很少有人尝试把时间上下文(temporal context)整合进end-to-end manner。
而在相近的领域——video segmentation上,已有相关研究提出评估temporal consistency和accuracy的方法。在MOT algorithm上,因为通常会联系邻近帧间的关系,于是表现总是相对较好。
同时作者指出,本文提出的metric同样也能用于MOT相关算法的评估。

Our Evaluation Metric

这部分中,作者介绍了提出的评估标准。新的评估标准包括了两部分,一部分和目前的评估方法相似,是对精确度accuracy的评估;另一部分就是新增的对稳定性stability的评估,同时,对稳定性的评估又分为三个方面,文章用图示说明了三个方面:

Detection Accuracy

在accuracy方面,作者简单地扩展了目前的对静态图像的metric。目前的metric为mAP,即所有类AP的均值。而AP定义为precision和recall曲线的AUC (Area Under Curve)。在扩展的新metric中,作者取AP对IoU由0到1的曲线的AUC为新的metric;对多分类问题,取mAUC (mean AUC) 。mAUC值越大,对应越高的精确度。

Detection Stability

这里提出了评估stability的metric,也是本文的重点。
为了评估稳定性,需要将每个检测和一条轨迹匹配。如果检测输出和MOT相关,则直接使用。如果不是,则使用Hungarian algorithm来查找输出检测值和ground-truth的最佳匹配。而他们之间的IoU看作是二分图的权值。在稳定性评估中不包含没和任何ground-truth匹配的检测。以下方程是检测稳定性的公式:
Φ = E F + E C + E R , \Phi = E_F + E_C + E_R, Φ=EF+EC+ER, 其中 E F E_F EF指fragment error, E C E_C EC指center position error, E R E_R ER指scale and ratio error。
同detection accuracy一样,可以类似地通过改变检测置信度的阀值来画相关error对recall的曲线。并用这条曲线的AUC作为一个确定IoU阀值下的stability error。最后,把IoU阀值对stability error曲线的AUC作为最终的stability error,其值越小,稳定性越高。

Fragment Error

主要检测轨迹的稳定性,作者认为稳定的检测结果应该是连贯的,即始终被当作是目标或者始终不是,不应该频繁地改变状态。这里的改变状态指前一帧被检测为目标而后一帧没有被检测到,反之亦然。于是令 N N N表示视频序列中所有轨迹的数目, t k t_k tk表示第 k k k条轨迹的总长度,而 f k f_k fk表示状态改变的次数,并定义fragment error为:
E F = 1 N ∑ k = 1 N f k t k − 1 . E_F = \frac1N\sum_{k=1}^N\frac{f_k}{t_k - 1}. \qquad EF=N1k=1Ntk

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值