MEMOT：Multi-Object Tracking with Memory

最新推荐文章于 2024-10-05 22:34:51 发布

钰醂

最新推荐文章于 2024-10-05 22:34:51 发布

阅读量408

点赞数

文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/genggengdebaonei/article/details/129767988

版权

一、摘要：提供了一种在通用框架上完成目标检测和数据连接的线上跟踪方法MEMOT。它是通过提供一个大的时空内存去存储被跟踪目标的标识嵌入。并根据需要自适应地从内存中参考和聚合有用的信息。

二、之前方法的不足：

非深度学习的方法：对于非线性或者非高斯分布的情况，有限维状态表示很难估计最优状态。例如遮挡就是非线性也是非高斯的。

MOTwith transformer的方法没有长期时空观测值的建模和自适应特征聚合的方法

memory networks :当时这种工作专注与SOT，所以本文提出了MEMOT

三：架构

整体架构：

分为三部分：

1.帧水平下的假设生成模块（为当前帧生成区域proposals,及proposal embeddings）。

首先用CNN框架提取特征作为encoder的输入,编码器对特征进行加工得到新特征（编码器是多层的transformer的encoder）。解码器操作得到，可以从此中预测到每个proposal的目标得分和边界框。

2.track水平下的内存编码模块(生成track embeddings)短期的是为了平滑噪音，长期的是为了于从内存覆盖的时间窗口中提取相关特征。

短期模块是将之前的Ts状态作为V、K，前一状态的作为Q，长期模块是更长的历史状态Tl作为V、K，上一轮的DMAT（Dynamic Memory Aggregation Tokens）作为Q。这两模块都是多头cross-attention模块 .

3.内存解码模块:以1和2的输出作为query,将第一阶段的encoder后的特征z1作为V、K得到，从中可以得到三个预测值：边界框、目标得分、 the uniqueness score..。o=1说明该条目是一个可见的object。u=1，模型预测q描述的对象是唯一的，应该包含在跟踪输出中。否则它就需要被抑制。

之后为了简便定义了一个新变量（unified confidence score）：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄5年

14
原创

20
点赞

35
收藏

16
粉丝

关注

私信

热门文章

最新评论

为什么vscode没有转到定义之类的选项
少年芒: 他们都是虚的，哥们你这篇是实的
安装mmcv,报错
CSDN-Ada助手: 恭喜您写了第14篇博客！标题看起来很有趣，我很期待阅读您的文章。安装mmcv时遇到报错确实是一个常见的问题，但不用担心，这是学习和成长的过程。我的建议是，在博客中详细描述您遇到的问题以及如何解决它们，这将帮助其他读者更好地理解并克服类似的困难。同时，您可以考虑分享一些关于mmcv的使用技巧和最佳实践，这将进一步丰富您的博客内容。继续努力创作，期待看到更多精彩的博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。