Deep Meta Learning for Real-Time Target-Aware Visual Tracking

 

论文

Motivation

当跟踪目标外观发生变化时,需要对模型进行更新。使用传统的 SGD、岭回归这些更新方法耗时且容易过拟合,因此本文提出用元学习 (meta-learning) 方式对模型进行更新。本文方法的 motivation 如图 1 所示,分为匹配网络和元学习网络。前者是标准的孪生网络,元学习网络接收来自匹配网络的元信息,并为匹配网络提供自适应的 target-specific 特征空间。而元学习网络仅需一次前向传播就可以得到 target-specific 特征空间的参数,实时性较好,达到了 48fps

 Method

 图 2 是算法整体框架,可以看到,图 1 中描述的匹配网络输入到元学习网络的元信息指的是训练样本的 loss 梯度,而元学习网络输出的 target-specific 信息指额外的卷积核和通道注意力。

Components

匹配网络是标准的孪生网络

其中,x 是模板,z是搜索区域,w = \{w_1, w_2,..., w_N \}表示每一层卷积层的权重参数。

元学习网络根据历史得到的 M 个 context patch z = \{z_1, z_2,...,z_M\}以及 target patchx,来计算能够适应目标变化的新增参数。首先计算损失函数对匹配网络最后一层卷积层的平均负梯度 \delta

其中 \widetilde {y}_i表示假设目标落在正确位置时生成的二值响应图。meta-learner 设计的依据是目标发生变化时 \delta 也发生变化,所以将 \delta 作为元学习网络的输入,可以生成 target-specific 的权重。

将生成的 \omega^{target}与原始的权重拼接起来得到新的自适应权重 w^{adapt} = \{ w_1, w_2,..., [w_N, \omega^{target}] \},将其用于目标定位

此外,元学习网络还生成了通道注意力权重进一步调整特征表示空间。

Tracking algorithm

在跟踪过程中,会保存一个 context image 的集合z_{mem} = \{ z_1, z_2,...,z_K \}以及对应生成的响应图\hat {y}_{mem} = \{ \hat {y}_1, \hat {y}_2,..., \hat {y}_K \}。只有当 \hat {y}的最大响应值大于阈值时,z​​​​​​才会被加入 memory 集合中。在更新权重时,从 K 个 context image 中选择 M 个来进行计算,筛选标准是 \hat {y}_{mem}的最小熵,熵越大响应图分布越杂乱,这样可以避免模糊的响应图引入 false positive。

 整体跟踪流程如下:

 Training 

 首先单独训练匹配网络,然后在此基础上按照图 3 的方式训练元学习网络。类似在线跟踪过程,从同一个视频序列中随机采样 M’ 个 context patch,然后从中选取 M 个送入元学习网络训练(M’ >M),这样是为了避免过拟合。优化损失为:

Experiments 

 

消融实验,MLT-mt 表示只有匹配网络,MLT-mt+ft 表示对匹配网络最后一层进行在线微调更新。可以发现在线微调甚至比不进行更新效果更差,因为过拟合。

 

最后可视化了 target-specific 特征空间的效果,可以更聚焦目标并且抑制周围的干扰。

 

Conclusion

这篇文章发表在 ICCV2019,整体实验结果并没有刷得太高,但是 meta learning 运用在 siamese 跟踪中的思想无疑是优秀的。目标跟踪同样可以看做是一个 few-shot learning 的任务,如何运用历史跟踪的少量结果来微调模型参数,meta learning 是一个不错的方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值