MOSSE(Minimum Output Sum of Squared Error filter)是将相关滤波引入视觉跟踪领域的开创性文章,后续有很多跟踪算法基于相关滤波,在本文对MOSSE相关原理做详细介绍,便于后续理解其他相关滤波算法,本文涉及公式推导的详细过程,便于加深对相关滤波的理解。
motivation——相关性定义
两个信号 f f 和
在时刻 τ τ 的相关性(correlation)(即:在时刻 τ τ 的相似程度)在信号处理学中定义为:
离散形式为:
迁移——与跟踪任务相结合
在object tracking中引入correlation filter,的基本思路是:用初始帧中的目标训练跟踪器(也就是correlation filter),得到参数矩阵h(后文会做详细解释),在下一帧中通过下式计算得到g,目标bounding box的确定规则:the location corresponding to the maximum value in the correlation output indicates the new position of the target,也就是说输出矩阵g中的最大值对应着目标在下一帧的位置。
根据 卷积定理,上式可写成如下形式:
其中: F=F(f) F = F ( f ) f:输入图像的特征矩阵
H=F(h) H = F ( h ) h:tracker的参数矩阵
⊙ ⊙ :Element-wise multiplication
⊗ ⊗ :卷积
∗ ∗ :The complex conjugate
而在跟踪中,主要是计算H:滤波器参数矩阵,H可以通过下式计算得到:
最小二乘法的引入
理想情况下是,实际上H为目标本身的特征,但是该方法在实际应用中是行不通的,由于下一帧的目标和当前帧的目标特征矩阵不可能完全相同,因此,为了提高跟踪器的鲁棒性,采用最小二乘模型,即MOSSE,因此,H自然成为滤波器参数矩阵(此处的h的含义是在最小二乘中的含义,是更上层的含义,与直观的目标本身的特征不同,它代表的是与待跟踪目标最相似的群体的特征的集合的综合表示,可以这么理解,整数表示所用整数型数字的集合,集合中的数字,相当于特定的目标特征矩阵,而整数代表H参数模型),引入MOSSE模型如下,尽可能使预测的结果矩阵和标签矩阵接近: