视觉跟踪评估指标解析-CSDN博客

本文链接：https://blog.csdn.net/weixin_43246440/article/details/99761160

VOT与OTB评价指标

OTB

Online Object Tracking Benckmark，其中主要使用两类评价指标，一类是平均像素误差Average Pixel Error（APE），二类是平均重叠率Average Overlap Rate（AOR）

ARE average pixel error

平均像素误差是根据预测目标中心位置和真实位置的像素距离作为误差值，该值越大说明误差越大。最后结果是对视频序列所有帧取平均值。

AOR average overlap rate

下面这张图应该可以说明问题，平均重叠率O是以面积来衡量的
$O=\frac{A_t\cap A_{gt}}{A_t\cup A_{gt}}$
在这里插入图片描述

时间鲁棒性

OTB对时间鲁棒性的测试是通过将视频序列在时间轴上平均找出20个点作为起点，终点还是原来的最后一帧，这样通过对20段视频序列运行算法，绘制平均的重叠率图或者像素误差图，这样就完成了空间鲁棒性的测试

空间鲁棒性

空间鲁棒性和时间鲁棒性一样，取一段视频的第一帧，以真实位置稍作偏移，就是说测试初始化位置有偏差的目标序列，这样测试12段（8个方向，四个尺度），这样就可以得到12和视频序列的评价成功率曲线，也就是空间鲁棒性曲线

VOT

Accuracy

Accuracy用来评价tracker跟踪目标的准确度，数值越大，准确度越高。它借用了IoU（Intersection-over-Union，交并比）定义，某序列第t帧的accuracy定义为：
$\phi_t=\frac{A_t\cap A_{gt}}{A_t\cup A_{gt}}$
其中 $A_{gt}$ 代表第 t 帧ground truth对应的bounding box, $A_t$ 代表第 t 帧tracker预测的bounding box。
更详细一些，定义 $\phi_t(i,k)$ 为第i个tracker在第k次重复（repetition，tracker会在一个序列上重复跑多次）中在第 t帧上的accuracy。设重复次数为 $N_{rep}$ ，所以第t帧上的accuracy定义为：
$\phi_t(i)=\frac {1}{N_{rep}}\sum^{N_{rep}}_{i=1}\phi_t(i,k)$
第i个tracker的average accuracy定义为：
$\rho_A(i)=\frac{1}{N_{valid}}\sum^{N_{valid}}_{t=1}\phi_t(i)$

其中 $N_{valid}$ 代表有效帧（valid frames）的数量，除了burn-in period之外的帧均为有效帧

Robustness

Robustness用来评价tracker跟踪目标的稳定性，数值越大，稳定性越差。仿照上面accuracy的定义，我们可以很容易得出robustness的计算公式。定义 $F (i, k)$ 为第i个tracker在第k次重复中failure的次数。失败次数即某帧预测的bb与gt的交集为0则判定失败，然后VOT tool会在5帧之后重新初始化跟踪器。
所以第i个tracker的average robustness定义为：
$\rho_r(i)=\frac{1}{N_{rep}}\sum^{N_{rep}}_{k=1}F(i,k)$

EFO

EFO（Equivalent Filter Operations ）是VOT2014提出来的一个衡量tracking速度的新单位，在利用vot-toolkit评价tracker之前，先会测量在一个600600的灰度图像上用3030最大值滤波器进行滤波的时间，以此得出一个基准单位，再以这个基础单位衡量tracker的速度，以此减少硬件平台和编程语言等外在因素对tracker速度的影响。