注意力之Visual Object Tracking by Hierarchical Attention Siamese Network

我想静静，

于 2021-01-06 11:56:48 发布

阅读量471

点赞数

分类专栏：深度学习文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/weixin_42764932/article/details/112260392

版权

深度学习专栏收录该内容

27 篇文章 9 订阅

订阅专栏

SiamFC

SiamFC的基本结构如下：
即，将目标与待搜索区输入到孪生网络中，分别获得对应feature map，然后做互相关，就是将目标的feature map 作为卷积核，与之作卷积，获得响应图(heatmap)
在这里插入图片描述
缺点：

应该找到与模板类似的候选对象，并且应该将正确的对象与所有这些候选对象区分开来。
严重遮挡或背景杂乱的物体会导致意想不到的跟踪失败。

所以需要为目标模板找到关键部位，即注意力机制。

Visual Object Tracking by Hierarchical Attention Siamese Network

1. 关键部位搜索：

在这里插入图片描述

设置占目标面积 $1 / 4$ 的mask, 通过滑窗，生成N个masked object.
将原 object 和 masked object 经过简单的特征变换，得到 $HOG(O) , HOG(O_{mask(i)}), i=1,2...N$
分别计算 $H O G (O)$ 与N个 $HOG(O_{mask(i)})$ 的内积，选取使得内积值最小的mask, 即该mask包含了object中最重要的特征，记该mask为关键部位。

2. 注意力权值计算

在得到对象的关键部分后，我们用它来计算匹配的注意权重。显然，关键部分位置的权重要高，背景的权重要低。
除此之外，靠近关键部位的区域应该有更多的权重。这是因为在进行相似匹配时，要突出关键部分，建立更多的判别特征，放大其比例。
在这里插入图片描述
$f (C), f (E), a n d f (S)$ 分别为目标关键部位、目标、待搜索区的输出特征

计算流程

将目标与关键部分经过卷积变换后，再进行互相关操作，得到注意权重，即响应图(heatmap)。 $c o r r (f (C), f (E))$
将权重heatmap与目标相结合，通过增加注意部分的匹配结果，减少不重要部分的匹配结果来提高匹配性能。 $c o r r (f (C), f (E)) \cdot f (E)$
最后，将注意特征输出到搜索区域中进行后续定位
$R = c o r r (c o r r (f (C), f (E)) \cdot f (E), f (S))$

整体架构

在这里插入图片描述

由目标求得关键部位，然后在孪生网络的每层卷积后，由A-Net输出经过注意力加权的attentive feature map，与该层待搜索区的feature map进行互相关，获得响应图。
最终位置由所有响应图估计，目标大小由所有响应图采用投票策略估计。

我想静静，

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
注意力之Visual Object Tracking by Hierarchical Attention Siamese Network

SiamFCSiamFC的基本结构如下：即，将目标与待搜索区输入到孪生网络中，分别获得对应feature map，然后做互相关，就是将目标的feature map 作为卷积核，与之作卷积，获得响应图(heatmap)缺点：应该找到与模板类似的候选对象，并且应该将正确的对象与所有这些候选对象区分开来。严重遮挡或背景杂乱的物体会导致意想不到的跟踪失败。所以需要为目标模板找到关键部位，即注意力机制。Visual Object Tracking by Hierarchical Attentio
复制链接

扫一扫