TPAMI 2024 | MixFormer: 基于迭代混合注意力的端到端跟踪

最新推荐文章于 2024-07-05 09:30:00 发布

小白学视觉

最新推荐文章于 2024-07-05 09:30:00 发布

阅读量277

点赞数 12

分类专栏：论文解读 IEEE TPAMI 文章标签： TPAMI 论文解读注意力机制端到端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42722197/article/details/139901886

版权

论文解读 IEEE TPAMI 专栏收录该内容

97 篇文章 6 订阅 ¥29.90 ¥99.00

订阅专栏

题目：MixFormer: End-to-End Tracking With Iterative Mixed Attention

MixFormer: 基于迭代混合注意力的端到端跟踪

作者： Y. Cui; C. Jiang; G. Wu; L. Wang

摘要

视觉目标跟踪通常采用多阶段流水线，包括特征提取、目标信息集成和边界框估计。为了简化这一流程并统一特征提取和目标信息集成的过程，本文提出了一种紧凑的跟踪框架，称为 MixFormer，基于 transformers 构建。我们的核心设计是利用注意力操作的灵活性，提出了一种混合注意力模块（MAM），用于同时进行特征提取和目标信息集成。这种同步建模方案使我们能够提取目标特定的判别特征，并在目标和搜索区域之间进行广泛的通信。基于 MAM，我们通过堆叠多个 MAM 并在顶部放置一个定位头，简单地构建了我们的 MixFormer 跟踪器。具体来说，我们实例化了两种类型的 MixFormer 跟踪器，一种是分层跟踪器 MixCvT，另一种是非分层简单跟踪器 MixViT。对于这两种跟踪器，我们研究了一系列预训练方法，揭示了监督预训练和自监督预训练在 MixFormer 跟踪器中的不同行为。我们还将掩码自动编码器预训练扩展到我们的 MixFormer 跟踪器，并设计了新的竞争性 TrackMAE 预训练技术。最后，为了在在线跟踪期间处理多个目标模板，我们在 MAM 中设计了一种不对称注意方案以降低计算成本，并提出了一个有效的评分预测模块来选择高质量模板。我们的 MixF

了解本专栏

小白学视觉

关注

12
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
TPAMI 2024 | MixFormer: 基于迭代混合注意力的端到端跟踪

视觉目标跟踪通常采用多阶段流水线，包括特征提取、目标信息集成和边界框估计。为了简化这一流程并统一特征提取和目标信息集成的过程，本文提出了一种紧凑的跟踪框架，称为 MixFormer，基于 transformers 构建。我们的核心设计是利用注意力操作的灵活性，提出了一种混合注意力模块（MAM），用于同时进行特征提取和目标信息集成。这种同步建模方案使我们能够提取目标特定的判别特征，并在目标和搜索区域之间进行广泛的通信。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小白学视觉 您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。