上篇文章链接:https://blog.csdn.net/m0_38065546/article/details/96710698
2 Sequence Level Semantics Aggregation for Video Object Detection
文章链接:https://arxiv.org/abs/1907.06390v1
方法
这篇文章总体思路其实和上篇文章差不多的,主要有以下几个不同
1、本文中没有只聚合同一个类的proposal,而不是全部proposal
2、没有考虑proposal间的位置信息
3、作者将其提出的方法与谱聚类方法进行了类比,将视频目标检测定义为muti-shot问题,而不是时间序列问题,将视频检测与时序解耦。
4、采样帧数不再局限于3帧,而是聚合多个帧的proposal特征到一个关键帧proposal,这也是为什么题目中说是序列级聚合,其实聚合的还是proposal。
具体来看,如下图:
对于关键帧上的某个proposal,聚合来自其他帧中的同类proposal。
如何评判两个proposal同属一个类别?
在这里作者用余弦相似度来判断两个proposal是否来自同一个类别:
对于一对proposal ( x i k , x j l ) \left(\mathbf{x}_{i}^{k}, \mathbf{x}_{j}^{l}\right) (xik,xjl)它们之间的相似性 w i j k l