GlobalTrack : A Simple and Strong Baseline for Long-term Tracking
https://arxiv.org/abs/1912.08531 link
长期跟踪的一个关键在于更大的区域(通常是整个图像)中搜索目标,以应对目标丢失。作者提出GlobalTrack进行全局实例搜索的跟踪器;GlobalTrack基于two-stage的目标检测器,根据单个查询图像作为指导,对任意实例进行全图像和多尺度搜索。最重要的是不需要在线学习,也不需要对位置或尺度变化进行惩罚,无需尺度平滑。
基于Faster-RCNN的思路,GlobalTrack包含两个子模块:用于生成query-specific候选对象的query-guided区域生成网络(QG-RPN),以及对候选对象进行分类的query-guided区域卷积神经网络(QG-RCNN)并产生最终的预测。
GlobalTrack的总体架构:
在QG-RPN和QG-RCNN的特征调制部分中,对backbone和ROI输出的查询和搜索图像特征之间的相关性进行编码,指导检测器定位到query-specific的实例。
在跟踪过程中,将QG-RCNN的top-1预测作为结果。在训练阶段,使用与Faster-RCNN中相同的分类和定位损失,作者进一步提出了一种交叉查询损失,以提高GlobalTrack针对干扰物/相似物的鲁棒性,把同一图像上不同查询的损失平均化,迫使模型学习查询与预测结果之间的依赖性。
Query-guided RPN:
QG-RPN是为了得到与目标相关的候选区域,关键是利用相关性在backbone特征中对查询信息进行编码。 z ∈ R k × k × c z\in R^{k \times k \times c} z∈Rk×k×c表示查询实例的ROI特征, x ∈ R h × w × c x\in R^{h\times w \times c} x∈Rh×w×c表示搜索图像特征,其中h,w和k代表特征尺寸;目的是获得一个 x ^ ∈ R h × w × c \hat{x} \in R^{h\times w\times c} x^∈Rh×w×c,用于编码z和x之间的相关性:
x ^ = g q g − r p n ( z , x ) = f o u t ( f x ( x ) ⊗ f z ( z ) ) \hat{x}=g_{qg-rpn}\left(z,x\right)=f_{out}\left(f_x\left(x\right)\otimes f_z\left(z\right)\right) x^=gqg−rpn(z,x)=fout(fx(x)⊗fz(z))
⊗表示卷积, f z ( z ) f_z\left(z\right) fz(z)是把z转换为卷积核,该卷积核在特征 f x ( x ) f_x\left(x\right) fx(x)上生成z与x之间的相关性。 f o u t f_{out} fout用于确保输出 x ^ \hat{x} x^具有与x相同的大小。 f z f_z fz是零填充的k×k卷积层,将z转换为1×1的卷积核, f x f_x fx是具有填充的3×3卷积层,而 f o u t f_{out} fout是 1×1卷积层,把特征通道数变回c。这部分不使用归一化和激活函数。
由于 x ^ \hat{x}