Abstract
一个结合梯度特征HOG及颜色特征的实时跟踪算法,速度达到80FPS,即每秒80帧图像。
Introduction
Staple: Sum of Template And Pixel-wise LEarners
对于目前的主流跟踪算法,采用的tracking-by-detection策略,即先检测目标的位置,以HOG检测为例 ,对同一个目标,可能得到多个目标的矩形框,如下图所示。有的时候直接通过NMS(non-maximum suppression 非极大值抑制)处理保证只有一个解。不过多数跟踪算法宁可错杀,也不愿放过一个。HOG Object Detection 可以参考 Histogram of Oriented Gradients and Object Detection
Related Work
- Online learning and Correlation Filters:在线学习+协同过滤
- Robustness to deformation:应对形变
- Schemes to reduce model drift:应对漂移问题
- Combining multiple estimates:结合多种估计
- Long-term tracking with re-detection:长期跟踪及重复检测
Proposed Approach
符号及含义
- t t t frame index, 帧索引,帧下标
- x t x_t xt 第t帧图像, x x x指代任意一帧图像
- p t p_t pt 第t帧图像中目标对应的矩形,当然,这个是最优的, p p p指代任意一帧图像
- S t S_t St 第t帧图像中目标对应的所有矩形,所以我们有 p t = a r g m a x p ∈ S t f ( T ( x t , p ) ; θ t − 1 ) p_t=argmax_{p\in S_t}f(T(x_t,p);\theta _{t-1}) pt=argmaxp∈Stf(T(xt,p);θt−1)
- f ( T ( x , p ) ; θ ) f(T(x,p);\theta) f(T(x,p);θ) 依据模型参数 θ \theta θ,计算得到目标在图像 x x x对应矩形 p p p的分数(score)。这个分数当然是越高越好,所以选择取最大分数时的矩形 p p p作为最优的矩形 p t p_t pt。对于 T ( x , p ) T(x,p) T(x,p)可以暂时肤浅地理解为检测出来的梯度特征与颜色特征。同样参数 θ \theta θ也可以暂时肤浅地理解为预测的梯度特征与颜色特征。然后 f ( T ( x , p ) ; θ ) f(T(x,p);\theta) f(T(x,p);θ)求预测特征与检测特征之间的匹配的情况,匹配分数越高,就越可能对应实际的目标矩形 p t p_t pt<