相关滤波器的原理和模板匹配十分接近,用图像卷积的方法搜索参数空间,以最大响应作为输出. 令h表示模板,a表示候选目标,目标在a里找到和h最接近的目标的位置和尺度, 一个标准的模板匹配问题. 利用图像卷积可以实现模板匹配,而空域中的卷积在频域中就是逐点相乘,当模板尺寸大于100时,可以极大提高卷积的速度.
因为在视频中,物体在前后帧的变化一定不会很大,所以可以使用前一帧作为模板,在后一帧里搜索物体,达到跟踪的效果.
ASEF是早期的一个相关滤波器跟踪方法,使用FFT变换提高卷积的速度.
令H表示当前模板h的FFT变换,A表示当前帧a的FFT变换,令G = A * H, 定义损失函数
L= ( G - G0 ) ^ 2 = (A*H - G0)^2
其中G0是期望的输出,不考虑尺度问题,我们使用二维高斯函数作为G0, 其峰值位于目标位置, 我们优化的目标是得到H.
令L对H求导得到0,有
H = A* G0 / A*A
这就是ASEF的模板计算公式. 初始化时,只有一帧数据,直接计算H结果很不稳定,可以通过对位置/角度等参数引入小的扰动,扩充出一批样本, 每一个样本计算出一个H,最后所有H取平均值.
MOSSE在ASEF之后,解决了ASEF中H容易收到异常值干扰的问题,并提出一个PSR概念,作为在线衡量跟踪效果. MOSSE引入的损失函数是多帧的(ASEF损失函数只基于一帧)
上式中的i代表帧号,同样L对H求导为0,得到
A和G都是矩阵,为了避免每一帧都要计算逆矩阵,MOSSE把分子和分母分开学习.因为这个解引入了多帧信息和lambda,所以其对异常值稳定性要大幅提高.
MOSSE中PSR是通过衡量卷积结果中最大值的显著程度来判断当前跟踪的正确与否,其定义为
定义Cmax是相关度峰值,R是除去Cmax邻域之外的所有区域,这个均值就是R内相关度均值,分母就是区域R内相关度标准差