Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 )
用对比学习的相似性学习代替传统跟踪器相似性跟踪学习,之后用训练好的网络进行视频跟踪,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss)
一 Background Discrimination Learning(背景辨别模型)
使用ILSVRC-2015 dataset,在视频的每10帧中采样一个训练帧,得到训练集F。应用EdgeBox为F中的每个帧生成500个object proposals
使用NMS为每一帧生成64个建议(表示为P)。对于每个epoch,我们通过在每个视频的一个随机帧中随机选择12个建议,从F中随机抽样一个基于补丁的训练集E。
基本思想就是采用对比学习,这块类似SiamCLR,训练分类前景和背景的网络。但因为所需BatchSize太大,所以加入了AHM(Anchor-based Hard Negative Mining)
基础模型M0:
给定一个跟踪的实例z,我们首先通过数据扩充操作创建两个z的扩充视图。假设我们每次迭代从E中随机抽取N个对象实例,通过数据扩充,我们在一个小批量中获得2N个增强的跟踪实例
loss和simclr相同
z是什么???????????????是proposal(edgebox生成的跟踪目标proposal)还是采样的帧(和原始simclr一样整张图片)??
z是positive pair
此处的ϕ是encoder,即特征提取
上述的背景辨别模型,能帮助我们更好的分辨背景
AHM伪代码:
Algorithm 1: Anchor-based Hard Negative Mining
Input: Frame set F, rounds R, iterations per round T ,
batch size N and the initial model M0.
Output: Background discrimination model Mb.
1 for i=1:R do
2 Sample patch set E from F;
3 Randomly select candidate anchors Pi from E;
4 Candidate anchor evaluation using si;
5 Get anchor set {Ai}Ti=1;
6 for t=1:T do
7 Select N-1 nearest neighbors N (At) of At;
8 Use N (At) and At for one mini-batch
contrastive learning with Lc;
9 Update the model Mi;
10 end
11 end
每次迭代选择N个样本,增强后有N*E个。对这些样本做AHM,按照如下的分数选择前N-1个最近的样本组成一个样本集合$N (A_t)$
![](https://img-blog.csdnimg.cn/img_convert/c4d3137f9f3dc75c512240fbc8862533.png)
是在第t轮中学习到的深度嵌入函数
因为每轮有T次迭代,最终组成
将N (At) 作为正样本, 所有At作为负样本
训练时,先使用Mo做20轮训练,再做40轮加上AHM的(Use N (At) and At for one mini-batch)。LOSS仍采用Lc
二 Temporal Mining(时态挖掘)
使用上面训练好的Mb进行时态挖掘,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss)
收集即是随机从数据集中随机选择一个开始帧。然后从该帧中随机选择一个proposal(跟踪目标)以开始挖掘。在对视频中采样的连续帧进行跟踪后,我们在最后一帧中获得了一个具有时间外观变化的跟踪patch。然后将第一个和最后一个patch收集进行训练,表示为S。又因为如此产生的样本必然会有噪声,所以为模型设计一种新的LOSS
在训练好后,可以将其集成到Siamese跟踪器中,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss