论文阅读笔记-Siamese instance search for tracking

最新推荐文章于 2020-07-15 21:48:25 发布

hxj_rain

最新推荐文章于 2020-07-15 21:48:25 发布

阅读量1.6k

点赞数 1

分类专栏：目标跟踪文章标签：目标跟踪

0 篇文章 0 订阅

订阅专栏

这是发表在2016 CVPR上的一篇用深度学习做目标跟踪的文章，区别于传统的目标跟踪方法，文章所用方法学习过程全部在线下完成，模型确定以后，跟踪期间不再进行模型的更新。
先感受一下文章的*pipeline：*
这里写图片描述

整个流程大致为：首先离线训练卷积网络得到匹配函数，然后在线跟踪，根据匹配函数选择与初始帧标定目标最为匹配的patch作为跟踪结果。

网络结构的几点改进说明：

对pooling层的改进：减少原本网络结构的pooling层数。作者解释的原因是pooling会降低图像的空间分辨率，这个分辨率对分类任务来说影响不大，但是类似定位、目标跟踪这样的任务对分辨率还是有一定要求的，但同时又为了保证pooling带来的消除高频小噪声的好处，所以，对pooling层要适当减少。具体为VGG只包含两个pooling层，Alexnet不再包含pooling层。
对fast-Rcnn的借鉴：由于单个处理多个candidate regions耗时耗力，因此采用region pooling layer来快速处理多个重叠区域，每一分支的输入为全图加上一系列bounding box，前几层网络先处理整幅图像，然后ROI层把特定区域的特征图转换为固定长度的表达，再送往网络的高层。
多层特征综合考虑：网络层越深，表达越抽象，低层特征对类内差异更敏感，高层特征对类间差异更敏感。在跟踪任务里是高层特征好，还是低层特征好，难以定论，所以高层和低层的特征都采用，将多层的输出特征直接馈送到损失层。
正则项约束：激活函数采用RELU，但是这样输出的幅度就会没有限制，幅度的大小会影响损失函数的大小，所以在损失函数前加一个l2范数层来限制幅度。
损失函数的设计：正样本对尽量离得近，负样本对离得远。

tracking阶段：
认为第一帧的bounding box是没有污染的，所以每个candidate region都和它进行比对，即一支网络送入初始帧的bounding区域，另一支网络送入当前帧的candidate regions，返回最匹配的作为跟踪结果。

实验结果：
作者做的实验很充分，在和其他传统的跟踪算法做对比之前，先对自身网络结构上从三方面进行了比对：

作者：http://blog.csdn.net/mtc_Ningning/article/details/52814480?locationNum=10

关注