一、摘要:提供了一种在通用框架上完成目标检测和数据连接的线上跟踪方法MEMOT。它是通过提供一个大的时空内存去存储被跟踪目标的标识嵌入。并根据需要自适应地从内存中参考和聚合有用的信息。
二、之前方法的不足:
非深度学习的方法:对于非线性或者非高斯分布的情况,有限维状态表示很难估计最优状态。例如遮挡就是非线性也是非高斯的。
MOTwith transformer的方法没有长期时空观测值的建模和自适应特征聚合的方法
memory networks :当时这种工作专注与SOT,所以本文提出了MEMOT
三:架构
整体架构:
分为三部分:
1.帧水平下的假设生成模块(为当前帧生成区域proposals,及proposal embeddings)。
首先用CNN框架提取特征作为encoder的输入,编码器对特征进行加工得到新特征(编码器是多层的transformer的encoder)。解码器操作得到,可以从此中预测到每个proposal的目标得分和边界框。
2.track水平下的内存编码模块(生成track embeddings)短期的是为了平滑噪音,长期的是为了于从内存覆盖的时间窗口中提取相关特征。
短期模块是将之前的Ts状态作为V、K,前一状态的作为Q,长期模块是更长的历史状态Tl作为V、K,上一轮的DMAT(Dynamic Memory Aggregation Tokens)作为Q。这两模块都是多头cross-attention模块 .
3.内存解码模块:以1和2的输出作为query,将第一阶段的encoder后的特征z1作为V、K得到,从中可以得到三个预测值:边界框、目标得分、 the uniqueness score..。o=1说明该条目是一个可见的object。u=1,模型预测q描述的对象是唯一的,应该包含在跟踪输出中。否则它就需要被抑制。
之后为了简便定义了一个新变量(unified confidence score):