ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

  理解出错之处望不吝指正。

  本文模型叫做UCT。就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型。模型的整体结构如下图所示(图中实线代表online tracking过程,虚线框内和虚线表示离线训练过程和在第一帧进行训练):

   

  模型的目的是从样本中学习出一系列convolution filter f,则在样本x上进行卷积得到的卷积response为(其中d代表channel数):

   

  则损失函数可以写为:

   

  在测试阶段,可以看作:

   

 

  •   作者把模型的训练过程分为两部分:

  (1).off-line training

    这部分训练即为在训练集上最小化损失函数,不同的是,由于最后一帧中的目标位置经常不在cropped patch的中心,所以作者将train patch cropped with jittering(抖动)。

  (2).traing on first frame

    这部分训练的目的是使模型适应于跟踪特定的目标。在训练时,虚线框内的权值使用均值为0的高斯分布进行随机初始化,然后使用SGD进行训练。

 

  •   Online Tracking的过程主要包括以下两部分:

  (1).Model update

    作者认为在每一帧或者固定间隔帧进行更新是不合理的,于是作者提出了一个定义,PNR(peak-versus-noise ratio):

     

    这里分母表示对response map中除去峰值的地方求均值。

    当以下两个阈值都被满足的时候,才进行模型的更新。

     

  (2).Scale estimation

    这部分作者使用了DSST中一样的尺度估计方法,下面回顾一下。

     

    ①.在第一帧中以目标正中间为中心,截取S张不同尺度的图像,每张图像提取一个d维的特征向量,得到S*d的特征矩阵;

    ②.构造相关图g,大小为S*1,中间值最大,向两端递减;

    ③.计算出尺度滤波模板h;

    ④.对于当前帧,选取S张不同尺度的图像,和位置估计一样,计算出当前帧的相关图g,响应最大值对应的尺度即为估计的尺度。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值