Siamese Tracking with Lingual Object Constraints阅读笔记(未完成)
摘要
本文将tracking任务增加了lingual限制,即给定一串文本,tracker根据文本的信息来追踪特定的目标。
与另一篇将跟踪与文本相结合的文章Tracking by Natural Language Specification,Li et al不同的是,Li的文章引入Natural Language的目的是为了提高追踪的准确性,而本文则是提出了追踪的一种新应用,即根据特定的语言信息,来追踪特定的目标。
文中提出了两种模型,一种是基于Li的文章的SiamCT-DFG,而另一种则是加入Co-attetion机制的SiamCT-CA。实验结果显示,SiamCT-CA的效果最好。
Related Work
VQA
目前VQA方向的进展:
- 《Deep Modular Co-Attention Networks for Visual Question Answering》一文中提出了co-attention,对于multi-modal reasoning问题中的attention模块是一个很大提升(代替单纯使用Transformer中的self-attetion)
- 《In Defense of Grid Features for Visual Question Answering》一文中,指出grid feature能比region feature更好地优化,且表现得比region feature更加优异。
Tracking标准
实验中定义追踪到指定物体的指标是:追踪的目标物与指定的物体距离很近,举个例子:比如限制条件是追踪一只铅笔,则追踪的目标如果是一个人,那么这个人需要距离这只铅笔很近或者手里拿着这只铅笔,才能够判断为追踪成功。
Architechture
pre-processing
tracker
tracker使用的是SiamRPN++,由于本文并不是旨在提升跟踪性能,因此tracker在训练过程中并不会update。
Word Embeddings
Natural Language query通过word2vec模型,得到每个单词为300维的向量。而输入的语句被padding到固定长度20,因此每一个输入的sequence,是一个 S ∈ R 20 × 300 S∈R^{20×300} S∈R20×300的矩阵。
Framework
X为原图像,经过backbone ResNet-50后得到feature map。将得到的feature map与embedding通过constraint prediction模块,得到跟踪分类结果
y
y
y,由于是分类问题,loss使用的是二元cross-entropy loss。而右边Siamese Tracking部分则是根据首帧图像
z
z
z与该帧图像
x
x
x,来计算相似度,从而在视频中进行跟踪。
而其中涉及到将word embedding与feature map相联系起来的Constraint prediction则成了本文的研究重点。
SiamCT-DFG
SiamCT-DFG模型特点有以下几点:
- SiamCT-DFG并没有通过LSTM来处理word embedding,而是将embedding通过fully-convolutional layer,这一部分依据来源于《Actor and Action Video Segmentation from a Sentence》(待读)
- Attention MLP将图像特征信息与word embedding的信息相结合,目的在于根据图像信息,为Lingual constraint中的各个word计算attention权值。attention MLP模块来源于《Tracking by Natural Language Specification》
- Dynamic Filter(DFG)模块提供了特定关注于文本中的重要词语的filter,并将这个filter与当前帧的图像作depth-wise cross correlation。depth-wise cross correlation来自于SiamRPN++的原论文。
SiamCT-CA
这个模型主要是基于MCAN模型《Deep Modular Co-Attention Networks for Visual Question Answering》,将co-attention机制代入了模型中。
Pyramid Pooling Module(PPM)用于更好地根据Lingual constraint对目标进行定位。origin:《Pyramid Scene Parsing Network》 Integrate with VQA: 《In Defense of Grid Features for Visual Question Answering》
Conclusion
本文中,作者总结了目前存在的一大缺陷,即为用于训练的数据集缺乏的问题。该篇paper提出了两种自建的数据集,c-LaSOT与c-MOT16中的视频太少。
除此之外,文中使用的SiamRPN++也非SOTA。