1 简介
这个算法的全称是Clustering of Static-Adaptive Correspondences for Deformable Object Tracking,文章发表在CVPR2015上,官方的网址为:
http://www.gnebehay.com/cmt/
这个作者就是OpenTLD的C++版本的作者,包括ROS版的OpenTLD也是基于他的代码改的。
对于CMT这个跟踪算法,我在iPhone5s上做了实际测试,跟踪效果超乎想象,在我比较了TLD,CT,Color Tracking,Struck等等顶级算法的效果之后得到了这样的结论。这个算法是可以实用的跟踪算法,虽然它也有缺点,之后我会说。实时性和跟踪效果都一流。
本文主要目的是分析这个跟踪算法。
2 基本原理
对于物体的视觉跟踪,基本的思路就是能够不断监测到物体的特征,从而不断的得到物体的位置,实现跟踪。常见的有三种方法:
第1是基于整体的模型来跟踪,比如说TLD,通过不断的更新模型(也就是学习的过程)来实现对物体特征的良好表示。
第2是基于物体的局部来跟踪,就是将物体分解为多个部分,对每一部分进行单独的跟踪,采用光流等方法
第3是基于物体的特征点来跟踪,就是实时的监测物体的特征点,与一开始的特征点进行匹配的方法来实现物体的跟踪。
从上面的方法看现在的跟踪算法确实不能简单的用跟踪两个字来描述,里面的算法其实使用了物体检测,识别,机器学习等各种各样的方法。只要能框住视频中的一个物体,然后不断跟着,那么这个算法就是跟踪算法,跟踪算法的好坏也完全取决于能不能很好的框住。实际上,现在很多跟踪算法就是检测的算法。
那么CMT算法采用的是第三种思路,就是利用特征点。为什么?第一个理由恐怕是快!如果以神经网络来获取特征,那么那么多的参数,算到什么时候?不知道。而采用特征点的话,我们知道OpenCV中集成了很多检测特征点的算法,比如SIFT,FAST,BRISK等等,有的比如FAST速度很快的。而且这么做连滑动窗口检测都可以省掉啦。
那么问题在于如何判断下一帧的图像中哪些特征点是与当前的框中的特征点相匹配的问题了?只要能够很好地找到下一帧中物体的特征点,跟踪也就完成了。
因此,为了解决这个问题,作者做了一个看起来很简单的创新:就是计算特征点的相对位置,以框的中心来进行计算,对于不形变的物体而言,不管物体怎么移动旋转,其上面的特征点相对中心的距离是在缩放比例下是确定的,因此可以由此来排除不是的特征点。
作者获取下一帧的特征点做了两部分工作:1个是计算前一帧的框中的特征点的光流,从而得到当前帧的特征点位置,另一个方法是直接计算当前帧的特征点,并与上一帧的特征点进行匹配,得到相匹配的特征点,然后把两个得到的特征点都融合在一起。就得到了下一帧的初步的特征点。然后在对特征点进行筛选,采用的就是上一段说的方法。
基本原理就是上面说的,下面我们从代码级别来分析一下这个算法。
3 CMT.cpp代码分析
在使用CMT算法时,我们要先初始化,也就是确定第一帧以及框框,然后进行处理下一帧。
void initialize(const Mat im_gray, const cv::Rect rect); void processFrame(const