ARTrack code with comments
https://github.com/MIV-XJTU/ARTrack
ARTrack的框架:
代码训练主要分为两阶段:
-
第一阶段就是和seqtrack是一样的,就是template和search的图像打成patches送进transformer的encoder和decoder,只不过decoder这里送的query tokens送的是一个[cmd]或者[start] token,然后加x,y,w token, 序列化的顺序预测x,y,w,h目标位置信息,因为在预测x的时候只知道[start] token, 预测y的时候只知道[start] token和x token, 以此类推,所以motivation里面常写,如果模型知道目标在哪里,就能给一个命令就依次把目标的位置读出来。所以并不是给真值预测真值的看似白痴的学习。这里有两点需要注意的:
- 这里的坐标变成token会经过一个word to embedding的过程,实现上来看就是把坐标当做index索引,会有一个embedding vocabulary字典被索引,经过坐标的索引出来的嵌入才会送入decoder里面。这样做的好处论文中解释为: This novel regression avoids direct non-linear mapping from image featur