A Twofold Siamese Network for Real-Time Object Tracking—CVPR2018 阅读

本文在SiamFC的基础上增加了语义分支,提出了一种双重Siamese框架,进一步提升SiamFC的判别力。

Abstract.

Observing that Semantic features learned in an image classification task and Appearance features learned in a similarity matching task complement each other, we build a twofold Siamese network, named SA-Siam, for real-time object tracking.

观察到在图像分类任务中学习的语义特征和在相似度匹配任务中学习的外观特征是互补的,作者建立了一个双重的Siamese网络,名为SA-Siam,用于实时的目标跟踪。

SA-Siam is composed of a semantic branch and an appearance branch. Each branch is a similarity- learning Siamese network.

SA-Siam跟踪器包含语义分支和外观分支。每一个分支都是一个相似性学习的Siamese网络。

An important design choice in SA-Siam is to separately train the two branches to keep the heterogeneity of the two types of features.

在SA-Siam中,一个重要的设计选择是分别训练这两个分支,以保持两类特性的异构性。

In addition, we propose a channel attention mechanism for the semantic branch. Channel-wise weights are computed according to the channel activations around the target position.

此外,作者还提出了语义分支的通道注意机制。通道的权重是根据目标位置周围的通道激活来计算的。

While the inherited architecture from SiamFC [3] allows our tracker to operate beyond real-time, the twofold design and the attention mechanism significantly improve the tracking performance.

由于继承了SiamFC的架构,使跟踪器运行超实时,双重设计和注意机制显著提高跟踪性能。

The proposed SA-Siam outperforms all other real-time trackers by a large margin on OTB-2013/50/100 benchmarks.

在测试数据集上进行了性能测试。

框架图

外观分支(A-Net蓝色部分):一个目标z送到网络里,一个比目标大的搜索域x送到网络里,z出来的特征图与x出来的特征图进行卷积操作得到相关系数图,相关系数越大,越可能是同一个目标,网络采用和SiamFC中一样的网络(使用ILSVRC-2015进行训练)。

语义分支(S-Net橙色部分):一个比上述目标z’大的目标送到网络里,同样一个比目标大的搜索域x送到网络里,均提取conv4和conv5特征,然后同外观分支相同进行分别卷积(这里使用的特征提取网络是直接使用预训练的AlexNet)。

结合:将上述得到的外观分支相关系数图和语义分支相关系数图按一定比例加起来,就是最终的响应图;(0.3A+0.7S)

语义分支中的Channel Attention机制:高维语义特征对目标的外观变化是鲁棒的,为了提升语义分支的判别力,作者设计了一个Channel Attention模块。直觉上,在跟踪不同的物体时,不同的通道扮演着不同的角色,某些通道对于一些物体来说是极其重要的,但是对于其他物体而言则可以被忽略,甚至可能引入噪声。如果能自适应的调整通道的重要性,那么将获得目标跟可靠地特征表达。为了达到这个目的,不仅目标是重要的,其周围一定范围内的背景同样重要,因此这里输入网络的模板要比外观分支大一圈。

上述图中,假设是conv5层的第i个通道特征图,将该图分割成3×3份(其中中间的那份是准确的目标),经过max-pooling操作后变成3*3的图,经过一个两层的MLP网络后得到分数,通过sigmoid函数得到最终的得分系数。值得注意的是:这里的得分系数计算操作仅仅在第一帧进行计算,后续帧沿用第一帧的结果,所以其计算时间是可以忽略不计的。

训练阶段(training)

(1)数据集:ILSVRC中的视频目标检测数据集,共4500个视频序列,每帧都标记groundtruth,每次输入网络的是目标图像和以目标图像为中心的带有部分背景的图像;

(2)损失函数与样本标签:使用logistic loss。最后输出是一个响应图,样本标签是与这个响应图等尺寸的0/1标签图,靠近真实目标的位置标签为1(如红色部分),远离真实目标的位置标签为-1(如蓝色部分);

(3)特征提取网络结构:AlexNet去掉最后一个pooling层和所有全连接层。

跟踪阶段(testing)

(1)通过深度网络提取搜索区域特征和第一帧groundtruth图像的特征;

(2)对这两个特征进行求相关(实际通过卷积实现),得到响应图;

(3)选择响应最大位置为目标位置,并更新尺寸;

(4)以此目标位置为中心,确定下一帧搜索区域。

有几个点需要注意:

(1)S-Net直接使用预训练好的AlexNet参数,不用再训练;

(2)两路输入均包含了背景。groundtruth分支输入以真实目标为中心的与搜索区域等尺寸的区域图像,而不仅仅输入真实目标图像,是为了使用更多的背景信息,这对attention结构是有用的;

(3)使用了conv4和conv5层特征。两层特征融合,已经证明对跟踪精度有好处,因为高层特征关注语义,而低层特征保有更精确的位置信息,二者可以互补;

(4)有一个attention结构。attention结构提供特征的channel-wise权重,参数需要学习;

(5)有一个fuse结构。fuse结构可以看作是特征融合,参数需要学习。

 

参考

1. A Twofold Siamese Network for Real-Time Object Tracking (https://openaccess.thecvf.com/content_cvpr_2018/papers/He_A_Twofold_Siamese_CVPR_2018_paper.pdf

2. https://blog.csdn.net/aiqiu_gogogo/article/details/79409898

3. https://blog.csdn.net/zxgravity/article/details/82024793

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值