基于深度学习的目标跟踪论文阅读笔记(基于SiamFC改进)

End-to-end Flow Correlation Tracking with Spatial-temporal Attention(CVPR2018)
作者认为目前的算法大都只考虑了目标在当前帧的表观特征,对帧间信息利用太少,而tracking本身是基于视频序列做的——这无疑是一种浪费,同时也会降低跟踪器的性能。所以作者提出了一种flow correlation tracker 的思想,用光流来利用时序信息。
主要贡献:
1 提出FlowTrack(main contribution)
2 提出一种空间&时间的注意力策略
在这里插入图片描述
主要的网络还是比较简单的,上面的蓝色part是histroical branch(相当于模版分支),前若干帧 i 都和t-1帧做光流,然后用光流warp 第 i 帧的feature,最后把这些warp之后的特征merge到一起,得到一个比较好的特征。
作者这样做的目的是:能够用前 i 帧的特征修补t-1帧的特征。比如,当t-1帧的目标在发生形变或部分遮挡时,t-1的特征可能并不能很好的表征当前的目标,而对前i帧先做一个光流的warp(可以解释为做一个特征对齐)再merge,一定程度上能弥补t-1帧的不足,得到一个更robust的特征。
下面黄色的分支就是对当前帧的research region 提一个特征。最后通过一个CF layer找到相应最大的点,就是目标中心点的位置。
在融合阶段,设计了一种Spatial-temporal Attention的机制。在Spatial Attention中,是对空间位置上每一个待融合的点分配权重,具体采用余弦距离衡量(公式可以参见paper),结果就是和当前帧越相似分配的权重越大,反之越小。
这么做的问题是当前帧的权重永远最大,所以作者借鉴SENet的思想进而设计了temporal attention,即把每一帧看做一个channel,设计一个质量判断网络。网络输出的结果是每一帧的质量打分,质量高的帧分数高,质量低(比如部分遮挡)的帧分数低。
Temporal Attention和前面的Spatial Attention结合起来,就可以对warp之后的feature map和当前帧本身的feature map进行融合。

A Twofold Siamese Network for Real-Time Object Tracking(CVPR2018)
在这里插入图片描述
受SiamFC的启发,作者把SiamFC作为外观分支(A-Net),增加一个语义分支(S-Net)来增加模型的鲁棒性。
主要特点

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值