本文是我对CVPR2018上的一篇论文的一些阅读笔记和个人理解,欢迎批评指正。
论文题目:high performance visual tracking with siamese region proposal network(论文链接在这)
零、关于tracking
目标跟踪是指:对于一段连续的视频,给定第一帧中的标定框(框住需要跟踪的物体),要求在该视频的后续帧框住该物体。
注意,目标跟踪和目标检测是不同的:detection是给一幅图,要求输出图片上的《在训练集中出现过的物体》的类别和位置;而tracking则是给一组连续的视频帧,以及第一帧中物体的位置,要求输出剩余帧中该物体的位置,并且该物体是训练集中从未出现过的。可以看出,detection要求localization and classification,而tracking则只要求localization,但是tracking对定位的精度和速度的要求比detection高得多:tracking的精度评价指标EAO与IOU直接相关,而detection的评价指标mAP则是要求IOU只要过线就行。而且更重要的是,tracking要求定位的物体是训练集中从未出现过的,这是最主要、最本质的区别。
tracking的两类主要方法:
1、基于相关滤波。比如KCF、ECO等。此类模型为生成式模型,没有像神经网络那样的迭代训练过程。
2、基于深度学习(CNN)。比如Siamese-FC,Siamese-RPN等。
一、本文主要贡献
1、提出siamese region proposal network(Siamese-RPN)用于解决目标跟踪问题。该网络可利用“图片对”进行端到端地离线训练;
2、该模型可将在线跟踪任务转换为one-shot检测任务,而不是使用低效费时的多尺度测试(multi-scale test);
3、该模型在保证准确率的同时,达到了较高的速度。
二、相关工作