MDNet是2015年VOT的冠军,将深度学习引入目标跟踪,这篇文章的创新点是用深度学习抽取运动的特征,将运动特征添加到目标跟踪中。
文章全称:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking(MDNet)
团队:Korea的POSTECH团队
相关成果:TCNN CNN-SVM
网络结构
基本结构
- 输入层
>输入层接受107*107的RGB图像。
- 隐藏层
conv1-3:采用 VGG-M的卷积层,每两个卷基层之间分别有relu层、normalize层和pool层;
>fc4-5:全连接层,每层有512个神经元,全连接层之间,包含dropout层。
- 输出层
fc6层之后是softmaxloss层,用于计算损失;
>其中fc6是分支层,跟踪和检测的最大不同是:跟踪需要在线学习,根据目标特征不断更新权重矩阵,而检测只需要离线学习即可。因此,在线学习与待跟踪的目标特征有关。因此fc6层没有共享的意义。该层的每个分支对应不同的视频序列。
网络特点
- 网络较浅:分类任务简单,只有目标和背景,无需较深的网络;
- 精确定位:使用较浅的网络模型,有利于精确定位;
- 目标小:目标本身一般比较小,较深的模型,会使得目标的特征矩阵为一个像素点;
- 实时性高:较深的网络,不利于特高跟踪的实时性。
Offline Learning
目标
通过在标注的视频序列上训练模型,使得模型学习跟踪任务的公共属性,如:光照变化,尺度变化以及运动模糊等。训练策略
训练样本:
在K个标注的视频序列,每帧抽取样本数:
S+=50 S + = 50 ( IoU≥0.7 I o U ≥ 0.7 )
S−=200 S − = 200 ( IoU≤0.5 I o U ≤ 0.5 )
- 学习率: conv1−conv3 c o n v 1 − c o n v 3 卷积层的学习率为0.0001, fc4−fc5 f c 4 −