ICCV 2017 CREST:《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记

动机

       本文基于DCF进行改进,摘要中提到,基于DCF的跟踪器无法受益于端到端的训练。

主要贡献

       理解出错之处望不吝指正。
       主要包括一下三方面:
       1. 将CF重构为一个卷积层,这样使其受益于端到端的训练;
       2. 在时空上(spatiotemporal)使用剩余学习(residual learning)学习目标的外观变换;
       3. 本文提出的模型CREST在多个数据集上验证均可达到很好的效果。

整体框架

在这里插入图片描述
       模型的整体架构如上图所示,在跟踪第T帧时,将第T帧和第1帧送入特征提取层,得到特征图后,将第T帧特征图送入Base层(重构的DCF)和Spatial层,第1帧特征图送入Temporal层,将三个层的输出融合后得到响应图。

详细介绍

重构DCF

       DCF实际是优化以下函数:
       在这里插入图片描述
       传统的损失函数形式如下:
       在这里插入图片描述
       作者将DCF重构为一个卷积层,损失函数设置如下:
       在这里插入图片描述
       在这里插入图片描述
       这样就可以用梯度下降去计算权重,而不是通过计算封闭解。

剩余学习

       作者提到,只使用一个卷积层来重构DCF得不到效果很好的响应图,但是又不想堆叠很多的卷积层(会带来梯度消失)。作者通过添加两个剩余层(我的理解:学习差异性)来解决这个问题,即:Spatial和Temporal。这样,响应图的计算就可为以下三部分:
       在这里插入图片描述
       这样,计算响应图的流程则如下:
       在这里插入图片描述

Spatial层

       首先介绍Spatial层。
       在我的理解下,这一部分实际上就是用于学习Base层的输出和真实输出的偏差(相当于微调),也就是用Spatial层的输出去改进Base层的输出。

Temporal层

       Temporal层的作用是,防止当前的跟踪结果和初始帧的跟踪目标偏差较大。本层旨在学习Base层的输出和第一帧跟踪目标的差异性(防止跟丢?)。

跟踪过程

       跟踪过程实际上和传统的DCF没啥区别。

  • 特征提取部分使用VGG网络;
  • Base、Spatial和Temporal层使用高斯函数初始化;
  • 尺度处理和以往的模型都一样,获取不同尺度的search patch,再resize到相同尺寸;
  • 每一帧的跟踪结果作为训练数据放到样本库中,每隔T帧对模型进行更新。

实验结果

  • 模型效果展示
    在这里插入图片描述
    在这里插入图片描述
  • OTB2013实验结果
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • OTB2015实验结果
    在这里插入图片描述
  • VOT2016实验结果
    在这里插入图片描述
    在这里插入图片描述
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值