论文阅读笔记--PULT

Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 )

用对比学习的相似性学习代替传统跟踪器相似性跟踪学习,之后用训练好的网络进行视频跟踪,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss)

一 Background Discrimination Learning(背景辨别模型)

使用ILSVRC-2015 dataset,在视频的每10帧中采样一个训练帧,得到训练集F。应用EdgeBox为F中的每个帧生成500个object proposals

使用NMS为每一帧生成64个建议(表示为P)。对于每个epoch,我们通过在每个视频的一个随机帧中随机选择12个建议,从F中随机抽样一个基于补丁的训练集E。

基本思想就是采用对比学习,这块类似SiamCLR,训练分类前景和背景的网络。但因为所需BatchSize太大,所以加入了AHM(Anchor-based Hard Negative Mining)

基础模型M0:

给定一个跟踪的实例z,我们首先通过数据扩充操作创建两个z的扩充视图。假设我们每次迭代从E中随机抽取N个对象实例,通过数据扩充,我们在一个小批量中获得2N个增强的跟踪实例

loss和simclr相同

z是什么???????????????是proposal(edgebox生成的跟踪目标proposal)还是采样的帧(和原始simclr一样整张图片)??

z是positive pair

此处的ϕ是encoder,即特征提取

上述的背景辨别模型,能帮助我们更好的分辨背景

AHM伪代码:

 Algorithm 1: Anchor-based Hard Negative Mining
Input: Frame set F, rounds R, iterations per round T ,
batch size N and the initial model M0.
Output: Background discrimination model Mb.
1 for i=1:R do
2 Sample patch set E from F;
3 Randomly select candidate anchors Pi from E;
4 Candidate anchor evaluation using si;
5 Get anchor set {Ai}Ti=1;
6 for t=1:T do
7 Select N-1 nearest neighbors N (At) of At;
8 Use N (At) and At for one mini-batch   
contrastive learning with Lc;
9 Update the model Mi;
10 end
11 end

每次迭代选择N个样本,增强后有N*E个。对这些样本做AHM,按照如下的分数选择前N-1个最近的样本组成一个样本集合$N (A_t)$

是在第t轮中学习到的深度嵌入函数

因为每轮有T次迭代,最终组成

将N (At) 作为正样本, 所有At作为负样本

训练时,先使用Mo做20轮训练,再做40轮加上AHM的(Use N (At) and At for one mini-batch)。LOSS仍采用Lc

二 Temporal Mining(时态挖掘)

使用上面训练好的Mb进行时态挖掘,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss)

收集即是随机从数据集中随机选择一个开始帧。然后从该帧中随机选择一个proposal(跟踪目标)以开始挖掘。在对视频中采样的连续帧进行跟踪后,我们在最后一帧中获得了一个具有时间外观变化的跟踪patch。然后将第一个和最后一个patch收集进行训练,表示为S。又因为如此产生的样本必然会有噪声,所以为模型设计一种新的LOSS

在训练好后,可以将其集成到Siamese跟踪器中,步骤同SiamFC跟踪相同。(加上相关卷积,改变loss

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值