object tracking 论文阅读笔记(不持续)

只记录一下总体框架,不记录实现细节。

 

object tracking的难点:1. 物体形变遮挡等问题严重    2.实时online更新难    3.training data少

 

 

1. Fully-Convolutional Siamese Networks for Object Tracking  (ECCV16)    pdf

 

作者提出了网络siameseFC,先将两个输入分别经过全卷积网络,z为模板图像块(上一帧),x为当前目标图像块。得到的feature map进行相关运算,得到一个衡量两个输入相关性的score map,响应最大的地方乘上步长,就可以找到当前帧的目标位置。其中的全卷积网络的结构见表格。

 

 

 

 

 

 

 

 

2.CREST: Convolutional Residual Learning for Visual Tracking (ICCV17)   pdf

 

用residual的思想,网络学不好总体,可以让网络学一下变化差值,比较好学,效果会变好。

 

 

 

用CNN先提取将要search的patch的特征,得到的feature map经过一个base layer+spatial residual layers+temporal residual layers得到最终的response map.

 

 

 

 

 

 

3. Learning Multi-Domain Convolutional Neural Networks for Visual Tracking   (CVPR16)     pdf

 

作者认为物体的tracking用单独的网络很难做,因为会有形变、遮挡等各种变化,而且在一个视频中要跟踪的目标,在另一个视频中可能就是北京了,因此一个网络不是很容易学得这些很specific的特征。因此提出了MDNet,一个视频看作一个domain,前面有shared layers,最后一层fc层(binary classification)每个视频都不同,因此网络会学习共同的特征,最后一层又会根据domain的不同又有改变。(作者说在nlp中这种multi-domain learning 比较popular)

 

下图中黄色是positive sample,蓝色是negative。

 

 

 

 

MDNet网络小的原因:1.visual tracking只需要区分背景和目标,只有两类,因此网络不需要很复杂。 2.网络变深,位置信息会被diluted。 3. 目标一般比较小,所以input尺寸会小,自然需要network尺寸小。 4.efficient

 

训练策略是,在第interation时, minibatch用的training samples是序列的,并只有可以更新,。loss是softmax loss。

 

训练完成后这些fc都会被去掉,取而代之一个新的fc进行online tracking。

 

 

 

 

 

4. Learning to Track at 100 FPS with Deep Regression Networks (ECCV16)      pdf

 

作者提出goturn( Generic Object Tracking Using Regression Networks),在测试时可以达到100fps,速度很快。Goturn完全是offline的,在测试时并不进行online update。

 

网络结构如下,将前一帧目标的bounding box的中心点作为crop中心,2倍bbox的长宽进行crop得到一个输入,同时也同样尺寸位置crop当前帧得到search region得到另一个输入,同时输进网络。当然对于快速运动物体或遮挡等情况,作者说留着当future work。

 

 

 

 

 

5. End-to-end representation learning for Correlation Filter based tracking (CVPR17)      pdf

 

 

作者认为,一个pre-trained的CNN可以提出很好的表征物体信息的features,而相关滤波又可以在频域上进行点运算,并使用FFT加快速度,这两个结构合起来可以提高tracking的performance,因此作者很自然的想法是做成一个end-to-end的网络CFNet.

 

网络结构见下图。未完待续。

 

 

 

 

 

 

 

 

6. High-Speed Tracking with Kernelized Correlation Filters (TPAMI15)           pdf

 

 

公式太多。。。。看不完。总体就是用当前帧和滤波器做相关,预测相关性,看是否是正样本。越靠近目标区域,相关性越大,正样本可能性越大。相关操作因为可以变为频域的乘法,使用FFT,速度会变快。

 

 

 

7. Learning Policies for Adaptive Tracking with Deep Feature Cascades (ICCV17)        pdf    

 

目前的方法,用deep learning提出deep的feature效果会好,但速度变慢;而直接用相关滤波的方法,效果没那么好,但速度快。因此作者结合了两种方法,提出了一个可以自适应的方法 EArly-Stopping Tracker (EAST),容易track的frame就采用相关滤波即可,而难追踪的frame就继续进行convolution,得到表现好的deep feature。

 

如图,用reinforcement的方法训练一个agent,判断每一层的target的位置,判断这个位置是否可信,可信就可以输出,不可信就继续进入下一层,提取更high-level的特征。发现绝大多数frame是很容易追踪的。

 

 

 

 

 

 

 

8. Robust Object Tracking based on Temporal and Spatial Deep Networks(ICCV17)     pdf

 

提出了一个新的网络,结合了时域和空域的信息,提高tracking的效果。

 

结构如图,包括三个网络,先经过feature net提出low-level特征,然后

 

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值