使用siamese深度网络,no model updating, no occlusion detection, no combination of trackers, no geometric matching,达到state-of-the-art的水平。
论文旨在学习匹配机制,从大量的外部视频学习先验的匹配函数,训练视频与测试视频没有交集,在学习过程中关注广义目标外形变化。在跟踪过程中目标不变,不进行跟踪器组合和遮挡处理,跟踪算法如下所示,在新出现的帧中找与原始图像块最匹配的图像块:
相关工作
最早的跟踪方法是NCC,简单有效,TLD还在用;
Lucas&Knande在匹配函数中添加了仿射变换;
MST使用概率匹配;
其他方法:MEEM,RANSAC-based,MUSTer
深度学习;
实例搜索:再认证,本文的思想类似这个思路;
Siamese实例搜索跟踪器
使用Siamese结构包含两个分支,分别处理两个输入,对于每个分支,使用VGGNet和AlexNet对比,跟踪问题对离散化比较敏感,作者去掉了比较多的池化层,如下图所示:
考虑到跟踪中匹配的框有很多交叠的,使用了ROI pooling层进行加速,ROI池化将特征图转换为固定长度的表示。低层的特征分辨性比较强,高层的特征概括性比较强,作者使用了二者的综合特征。在跟踪中,query图像和search图像没必要紧邻。匹配过程中,根据匹配函数找到最佳匹配框:
实验结果
在OTB上的实验结果对比