Siamese Tracking with Lingual Object Constraints

摘要

本文将tracking任务增加了lingual限制,即给定一串文本,tracker根据文本的信息来追踪特定的目标。
与另一篇将跟踪与文本相结合的文章Tracking by Natural Language Specification,Li et al不同的是,Li的文章引入Natural Language的目的是为了提高追踪的准确性,而本文则是提出了追踪的一种新应用,即根据特定的语言信息,来追踪特定的目标。
文中提出了两种模型,一种是基于Li的文章的SiamCT-DFG,而另一种则是加入Co-attetion机制的SiamCT-CA。实验结果显示,SiamCT-CA的效果最好。

Related Work

VQA

目前VQA方向的进展:

  1. 《Deep Modular Co-Attention Networks for Visual Question Answering》一文中提出了co-attention,对于multi-modal reasoning问题中的attention模块是一个很大提升(代替单纯使用Transformer中的self-attetion)
  2. In Defense of Grid Features for Visual Question Answering》一文中,指出grid feature能比region feature更好地优化,且表现得比region feature更加优异。

Tracking标准

实验中定义追踪到指定物体的指标是:追踪的目标物与指定的物体距离很近,举个例子:比如限制条件是追踪一只铅笔,则追踪的目标如果是一个人,那么这个人需要距离这只铅笔很近或者手里拿着这只铅笔,才能够判断为追踪成功。

Architechture

pre-processing

tracker

tracker使用的是SiamRPN++,由于本文并不是旨在提升跟踪性能,因此tracker在训练过程中并不会update。

Word Embeddings

Natural Language query通过word2vec模型,得到每个单词为300维的向量。而输入的语句被padding到固定长度20,因此每一个输入的sequence,是一个 S ∈ R 20 × 300 S∈R^{20×300} SR20×300的矩阵。

Framework

在这里插入图片描述
X为原图像,经过backbone ResNet-50后得到feature map。将得到的feature map与embedding通过constraint prediction模块,得到跟踪分类结果 y y y,由于是分类问题,loss使用的是二元cross-entropy loss。而右边Siamese Tracking部分则是根据首帧图像 z z z与该帧图像 x x x,来计算相似度,从而在视频中进行跟踪。
而其中涉及到将word embedding与feature map相联系起来的Constraint prediction则成了本文的研究重点。

SiamCT-DFG

在这里插入图片描述
SiamCT-DFG模型特点有以下几点:

  1. SiamCT-DFG并没有通过LSTM来处理word embedding,而是将embedding通过fully-convolutional layer,这一部分依据来源于《Actor and Action Video Segmentation from a Sentence》(待读)
  2. Attention MLP将图像特征信息与word embedding的信息相结合,目的在于根据图像信息,为Lingual constraint中的各个word计算attention权值。attention MLP模块来源于《Tracking by Natural Language Specification
  3. Dynamic Filter(DFG)模块提供了特定关注于文本中的重要词语的filter,并将这个filter与当前帧的图像作depth-wise cross correlation。depth-wise cross correlation来自于SiamRPN++的原论文。

SiamCT-CA

在这里插入图片描述
这个模型主要是基于MCAN模型《Deep Modular Co-Attention Networks for Visual Question Answering》,将co-attention机制代入了模型中。

Pyramid Pooling Module(PPM)用于更好地根据Lingual constraint对目标进行定位。origin:《Pyramid Scene Parsing Network》 Integrate with VQA: 《In Defense of Grid Features for Visual Question Answering

Conclusion

本文中,作者总结了目前存在的一大缺陷,即为用于训练的数据集缺乏的问题。该篇paper提出了两种自建的数据集,c-LaSOT与c-MOT16中的视频太少。
除此之外,文中使用的SiamRPN++也非SOTA。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值