Siamese Tracking with Lingual Object Constraints

最新推荐文章于 2023-02-19 08:30:09 发布

WadeQyx

最新推荐文章于 2023-02-19 08:30:09 发布

阅读量298

点赞数

本文链接：https://blog.csdn.net/weixin_43390051/article/details/115184734

版权

Siamese Tracking with Lingual Object Constraints阅读笔记(未完成）

摘要
Related Work
- VQA
Tracking标准
Architechture
Conclusion

摘要

本文将tracking任务增加了lingual限制，即给定一串文本，tracker根据文本的信息来追踪特定的目标。
与另一篇将跟踪与文本相结合的文章Tracking by Natural Language Specification，Li et al不同的是，Li的文章引入Natural Language的目的是为了提高追踪的准确性，而本文则是提出了追踪的一种新应用，即根据特定的语言信息，来追踪特定的目标。
文中提出了两种模型，一种是基于Li的文章的SiamCT-DFG，而另一种则是加入Co-attetion机制的SiamCT-CA。实验结果显示，SiamCT-CA的效果最好。

Related Work

VQA

目前VQA方向的进展：

《Deep Modular Co-Attention Networks for Visual Question Answering》一文中提出了co-attention，对于multi-modal reasoning问题中的attention模块是一个很大提升（代替单纯使用Transformer中的self-attetion）
《In Defense of Grid Features for Visual Question Answering》一文中，指出grid feature能比region feature更好地优化，且表现得比region feature更加优异。

Tracking标准

实验中定义追踪到指定物体的指标是：追踪的目标物与指定的物体距离很近，举个例子：比如限制条件是追踪一只铅笔，则追踪的目标如果是一个人，那么这个人需要距离这只铅笔很近或者手里拿着这只铅笔，才能够判断为追踪成功。

Architechture

pre-processing

tracker

tracker使用的是SiamRPN++，由于本文并不是旨在提升跟踪性能，因此tracker在训练过程中并不会update。

Word Embeddings

Natural Language query通过word2vec模型，得到每个单词为300维的向量。而输入的语句被padding到固定长度20，因此每一个输入的sequence，是一个 $S∈R^{20×300}$ 的矩阵。

Framework

在这里插入图片描述
X为原图像，经过backbone ResNet-50后得到feature map。将得到的feature map与embedding通过constraint prediction模块，得到跟踪分类结果 $y$ ，由于是分类问题，loss使用的是二元cross-entropy loss。而右边Siamese Tracking部分则是根据首帧图像 $z$ 与该帧图像 $x$ ，来计算相似度，从而在视频中进行跟踪。
而其中涉及到将word embedding与feature map相联系起来的Constraint prediction则成了本文的研究重点。

SiamCT-DFG

在这里插入图片描述
SiamCT-DFG模型特点有以下几点：

SiamCT-DFG并没有通过LSTM来处理word embedding，而是将embedding通过fully-convolutional layer，这一部分依据来源于《Actor and Action Video Segmentation from a Sentence》(待读）
Attention MLP将图像特征信息与word embedding的信息相结合，目的在于根据图像信息，为Lingual constraint中的各个word计算attention权值。attention MLP模块来源于《Tracking by Natural Language Specification》
Dynamic Filter(DFG)模块提供了特定关注于文本中的重要词语的filter，并将这个filter与当前帧的图像作depth-wise cross correlation。depth-wise cross correlation来自于SiamRPN++的原论文。

SiamCT-CA

在这里插入图片描述
这个模型主要是基于MCAN模型《Deep Modular Co-Attention Networks for Visual Question Answering》，将co-attention机制代入了模型中。

Pyramid Pooling Module（PPM）用于更好地根据Lingual constraint对目标进行定位。origin:《Pyramid Scene Parsing Network》 Integrate with VQA: 《In Defense of Grid Features for Visual Question Answering》

Conclusion

本文中，作者总结了目前存在的一大缺陷，即为用于训练的数据集缺乏的问题。该篇paper提出了两种自建的数据集，c-LaSOT与c-MOT16中的视频太少。
除此之外，文中使用的SiamRPN++也非SOTA。

WadeQyx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Siamese Tracking with Lingual Object Constraints

Siamese Tracking with Lingual Object Constraints阅读笔记摘要Related WorkVQATracking标准Architechturepre-processingtrackerWord EmbeddingsFrameworkSiamCT-DFG摘要本文将tracking任务增加了lingual限制，即给定一串文本，tracker根据文本的信息来追踪特定的目标。与另一篇将跟踪与文本相结合的文章Tracking by Natural Language Sp
复制链接

扫一扫