论文笔记:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

tracking任务的一篇经典文章,2015年VOT的冠军,首次将深度学习引入tracking任务,并超越了当时的所有人工算法。

论文地址:https://arxiv.org/abs/1510.07945v1

代码地址:https://github.com/HyeonseobNam/MDNet

1.背景

  • 对于tracking任务而言,存在着诸多问题,主要集中在以尺度、光照、遮挡、形变、模糊等方面的变化而引起的系统的鲁棒性降低,而传统的方法大多使用人工算法或者使用CNN提取特征,人工算法进行跟踪。这些方法在单一问题上表现都还不错,但针对多种问题,则适应性较差。
  • 理论上而言,对于不同问题,存在着一些能够提取出的共性,这部分交给网络学习表现优于人类。

2.网络

网络结构非常简单,输入接三层卷积,再接三层全连接层。为了获得不同视频序列在跟踪中的共同信息,作者采用了如下训练方式,对于K个视频序列,fc6存在着K个batch分支,当训练第K个视频时,使用SGD更新conv1-3、fc4-5和fc6的第K个batch分支,直至网络收敛或者达到训练次数。

在测试过程中,作者固定住conv1-3的参数,新建fc6,并根据测试序列微调fc4-5、训练fc6。

3.算法

在训练过程中,用到了hard minibatch mining方法,将训练过程中产生的负样本作为训练样本再拿去训练网络,使得网络对于负样本的精度越来越高,提高了网络的表现。


在测试过程中,首先标出第一帧中需要tracking的目标,使用该帧微调预训练好的用于回归bounding box的CNN模型,然后随机初始化fc6层,在目标附近以高斯分布随机生成一系列的框,并用网络评估这些框的分数,选取表现最好的框作为下一帧的跟踪结果。其余框安装一定的IOU阈值作为正样本和负样本存入long-term和short-term数组,同时更新fc4-6的参数。

在接下来的帧中,仍然先以高斯分布画框,评估分数,找出最优框,然后根据最优框的分数不同,执行相应的策略。如果最优框表现好,就更新long-term和short-term数组中的样本,如果表现差,就使用short-term的样本更新fc4-6的参数。或者训练次数每达到10次时,就更新一次fc4-6的参数。

最后再说一点,每次获得表现最好的框时,会送入预先训练好的RCNN网络,进行bounding box一次回归,以获得更精确的tracking效果。

4.总结

本篇文章主要有以下几个两点:

  • 提取了基于不同序列的不变的信息
  • hard minibatch mining和bounding box回归的使用
  • online update的思想

 

 

 

个人笔记,水平有限,欢迎指正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值