论文阅读【MDet】目标跟踪

论文:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

首先解释一下Multi-Domain, 也就是多域的CNN,这边的一个域指的是一个视频序列,本文是通过学习一些跨域通用的特征来做跟踪,后面会解释如何训练和跟踪。

1、introduction

近年来,CNN被广泛应用于图像分类、分割,目标检测等,现今也有很多利用图像分类的数据集做目标跟踪,但是由于目标跟踪的复杂性,包括遮挡、变化、模糊还有光线变化等,而且有的时候可能上一帧是目标的物体下一帧就不是了,这在一定程度上导致了分类的方法不适用于视频跟踪。并且做视频跟踪,需要对背景和模板做在线的更新,所以分类检测的方法也不实用了。因此他们提出了MDNet的方法,利用预先学习的一系列通用的特征来对需要跟踪的视频处理。基于相关滤波的方法虽然得到了很好的效果,但是他们大部分还是使用的人工选择的特征。

2、MDNet网络结构

在这里插入图片描述

由上图可以看到,该网络有五个隐藏层,包括三个卷积层和两个全连接层,在网络的最后有k个分支,代表k个域,也就是对k个视频序列都有自己独立的softmax结果。文章中的前三层是使用VGG-M的参数初始化。

2.1预训练过程
在预训练的过程中,输入是k个视频序列,当训练第k个序列的时候,只允许fc6(k)这个分支被更新,利用SGD来进行梯度下降,直到收敛或者达到最大迭代次数。

2.2在线跟踪
在在线跟踪过程中,只取预训练网络的前5层参数,删除最后的fc6(1-K),增加一个属于该视频对象的全连接层。在第一帧上随机初始化目标的boundingbox,然后用第一帧训练一个bbox regression model,更新网络fc4-fc6的参数。(在线跟踪训练过程中conv1-conv3的参数不变)然后对于随后的每一帧使用第一帧的结果利用高斯分布随机生成候选框,选择得分最高的候选框做bbox回归。

2.3Long-term和short-term更新
在在线跟踪训练的过程中,需要对模板进行更新,不然没办法适应环境的变化,这篇文章提出了长时间和短时间的网络更新方法。
Long-term:每隔m帧更新一次正样本集,抛弃最早的样本,加入当前检测到的目标;
Short-term:每当跟踪失败时,使用前n帧中随机取一次结果作为当前的结果;
每当有Long-term或者Short-term更新时,网络fc4-fc6的参数就进行微调
算法如下:
在这里插入图片描述

2.4hard minibatch mining
由于正负样本之间如果差别太大会导致分类效果差,所以这篇文章参考了前人的方法,就是在历史结果中选择被错误检测为正样本的样本作为负样本,增加了负样本正样本区分的难度,所以叫难的minibatch挖掘?

3、实验结果

这篇文章是VOT2015的冠军,其在OTB和VOT数据集上都得到了很好的结果。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
以下是他们的一些实验结果:
在这里插入图片描述
在这里插入图片描述
当目标运动太快如图7下面一行,或者是两个目标外形很像,如图7第一行时失败。
更多实验结果请看论文。

优点:
1、这篇文章的网络简单但是能得到很好的效果;
2、使用域通用特征和域独有的特征相结合的训练方式,一定程序上解决了训练数据的问题;
3、时间复杂度低,实时性高,预训练的过程很大程度上加快了在线跟踪。
缺点:
1、对于目标运动太快,或者两个目标很像的情况下会跟丢;
2、速度很慢,1-2fps

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值