单目标跟踪(SOT)中在线更新方法总结

     在线更新的理解主要分为三种改进方面,一是对在线更新的损失及策略进行设计使其更加适合这个任务。二是对在线更新的内容进行构建,比如要更新哪个地方的参数,及这部分的参数需不需要做适应在线更新的重设计。三是对更新方法做设计,如用反向传播还是其他。

1、MDNet

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
论文:https://arxiv.org/abs/1510.07945
代码:https://github.com/hyeonseobnam/py-MDNet

     MDNet认为不同的域之间是存在共性的,所以提出了一种适合tracking的小网络。主要实现原理是通过上一帧生成的框进行打分,实际上有点像一个给定了检测框的分类任务,分类任务也比较简单就分两类,前景和背景。
     这篇文章的亮点在于作者认为跟踪是一个域适应的过程,有共通的地方,但是每个域是有独立性的。共通的地方通过学习前面的所有卷积层包括fc4、fc5全连接层来获得,这一部分对于每一个域都是共用且共通的。独立的部分在训练中的表征的是每一个域都有一个独立的fc6层,有多少个域就建立多少个,是一个分类任务,对每一个框输出前景和背景两个分数,并通过交叉熵损失学习。网络如下:
在这里插入图片描述
     网络的输入是107x107大小的bbox,为了保证最后的输出能是3x3的特征图。训练采样,由简单到难,这个好理解,如下图:
在这里插入图片描述
     在测试的时候,都会遗弃掉原来训练的fc6层,并对于每一个测试序列重新生成一个fc6,初始化fc6应该就是取了一波正负样本然后用第一帧训练了一下。在之后的过程中涉及到参数更新(fc4-fc6),有两个更新机制,一个是Long-term update,按照常规间隔后进行更新。另一个是short-term updates,即当出现潜在的跟踪失败的时候进行更新,也就是说当预测目标的positive score小于0.5。在跟踪的过程当中,我们保持一个单独的网络,这两种更新的执行依赖于物体外观变化的速度。long-term对应历史的100个样本(超过100个抛弃最早的),固定时间间隔做一次网络的更新(程序中设置为每8帧更新一次),short-term对应20个(超过20个抛弃最早的),在目标得分低于0.5进行更新。负样本都是用short-term的方式收集的(因为旧的负样本往往是冗余的或与当前帧无关)。

2、RT-MDNet

Real-Time MDNet
论文:https://arxiv.org/pdf/1808.08834.pdf
Github:https://github.com/IlchaeJung/RT-MDNet
     感觉再模板更新上没有什么创新,主要是提速的设计,改为全图输入和roi align来获得每个框的embedding。
在这里插入图片描述

3、ATOM

ATOM: Accurate Tracking by Overlap Maximization
论文:https://arxiv.org/pdf/1811.07628.pdf
Github:https://github.com/visionml/pytracking
在这里插入图片描述
     ATOM的在线更新是更新Classifier模块,文中说这是两层卷积层。并提出了一种相比于SGD可以快速收敛的优化方法,作者说适用于浅层网络的更新。

4、DIMP

Learning Discriminative Model Prediction for Tracking
论文:https://arxiv.org/pdf/1904.07220.pdf
Github:https://github.com/visionml/pytracking
在这里插入图片描述
     DIMP是一种端到端的跟踪架构,能够充分利用目标和背景的外观信息进行目标模型预测。该算法基于目标模型预测网络,通过迭代优化过程从判别学习损失中提取目标模型预测网络。模型预测网络采用基于最陡下降的方法,在每次迭代中计算最优步长,以提供快速收敛。模型预测器还包括一个初始化器网络,它有效地提供了模型权重的初始估计。

5、PrDIMP

Probabilistic Regression for Visual Tracking
论文:https://arxiv.org/pdf/2003.12565.pdf
Github:https://github.com/visionml/pytracking
     文章的重点在于一种概率回归方法。与DiMP推导不同,作者在最速下降公式中,用二次牛顿法代替高斯牛顿法。

6、UCT

UCT: Learning Unified Convolutional Networks for Real-time Visual Tracking
论文:https://arxiv.org/pdf/1711.04661.pdf
在这里插入图片描述
     在UCT中作者也是更新了模型中少量的参数,即最后的两层卷积层,以对测试集完成域适应,对第一帧用了SGD以较大的学习率学习第一帧,然后后面以比较小的学习率来完成更新。在这里的更新文中设定了一个限制,叫PNR(peak-versus-noise ratio),认为理想的表征图只有一个峰值,不能有多个,多个就是存在噪声,如下图所示:
在这里插入图片描述
     所以计算了两个值PNR和Rmax(具体计算见论文),如果这两个值达不到阈值时则不更新,达到则更新。

7、Dsiam

Learning Dynamic Siamese Network for Visual Object Tracking
论文:https://openaccess.thecvf.com/content_ICCV_2017/papers/Guo_Learning_Dynamic_Siamese_ICCV_2017_paper.pdf
在这里插入图片描述
     Siamnet的结构,这里做的更新是对模板做了更新,比较简单那种,及不用第一帧做匹配,而是用第t-1帧或者用第t-1帧的信息来更新模板的信息。

  • 1
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值