MEMOT:Multi-Object Tracking with Memory

一、摘要:提供了一种在通用框架上完成目标检测和数据连接的线上跟踪方法MEMOT。它是通过提供一个大的时空内存去存储被跟踪目标的标识嵌入。并根据需要自适应地从内存中参考和聚合有用的信息。

二、之前方法的不足:

非深度学习的方法:对于非线性或者非高斯分布的情况,有限维状态表示很难估计最优状态。例如遮挡就是非线性也是非高斯的。

MOTwith transformer的方法没有长期时空观测值的建模和自适应特征聚合的方法

memory networks :当时这种工作专注与SOT,所以本文提出了MEMOT

三:架构

整体架构:

分为三部分:

1.帧水平下的假设生成模块(为当前帧生成区域proposals,及proposal embeddings)。

首先用CNN框架提取特征作为encoder的输入,编码器对特征进行加工得到新特征(编码器是多层的transformer的encoder)。解码器操作得到,可以从此中预测到每个proposal的目标得分和边界框。

2.track水平下的内存编码模块(生成track embeddings)短期的是为了平滑噪音,长期的是为了于从内存覆盖的时间窗口中提取相关特征。

 

短期模块是将之前的Ts状态作为V、K,前一状态的作为Q,长期模块是更长的历史状态Tl作为V、K,上一轮的DMAT(Dynamic Memory Aggregation Tokens)作为Q。这两模块都是多头cross-attention模块 .

 

3.内存解码模块:以1和2的输出作为query,将第一阶段的encoder后的特征z1作为V、K得到,从中可以得到三个预测值:边界框、目标得分、 the uniqueness score..。o=1说明该条目是一个可见的object。u=1,模型预测q描述的对象是唯一的,应该包含在跟踪输出中。否则它就需要被抑制。

之后为了简便定义了一个新变量(unified confidence score):

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值