目标追踪
目标追踪是现在机器视觉下面一个研究方向,主要是研究如何对视频中的一个物体进行追踪。可以用在军事领域无人机对地面目标进行自动瞄准和打击,或者是刑侦领域在大量的监控摄像数据中筛选出某个警方感兴趣的目标。
FFT与卷积操作
笔者刚开始接触这个领域,正在研读MOSSE算法论文以及网上大佬们复现的代码。
其中有一个操作让我迷惑了好久,那就是把待检测区域和卷积核同时进行FFT,然后得到频域上的两个矩阵,这两个矩阵进行对应点相乘。相乘的结果再通过逆FFT回到空间域上。在空间域上找到整个矩阵的最大值,这个最大值所对应的位置就是新检测框的中心。
我之前不是很熟悉矩阵的FFT,也不明白为啥找到最大值就是新检测框的中心。调查了很多资料,做了一些实验,我感觉大概知道这个操作的原理了。
卷积操作是什么?
什么是卷积?
高数里的卷积就是一个积分, ( f ⊗ g ) ( d ) = ∫ f ( x ) g ( d − x ) (f \otimes g)(d) = \int f(x)g(d-x) (f⊗g)(d)=∫f(x)g(d−x)这种,多项式也可以卷积,多项式卷积的 x d x^d xd前面的系数等于 ∑ a i b d − i \sum a_{i} b_{d-i} ∑aibd−i,数论里有迪利克雷卷积 ( f ⊗ g ) ( x ) = ∑ d ∣ x f ( d ) g ( x d ) (f\otimes g)(x) = \sum_{d|x} f(d)g({x\over d}) (f⊗g)(x)