1.重排序(Re-rank)
(1)Re-ranking Person Re-identification with k-reciprocal Encoding
[1] Zhong Z , Zheng L , Cao D , et al. Re-ranking Person Re-identification with k-reciprocal Encoding[J]. IEEE Computer Society, 2017.
这是一篇2017CVPR的重排序(Re-ranking)论文,核心观点为:K-reciprocal encoding method,如何定义K-reciprocal呢:
其中N(p,k)指的是p的原始top-k ranking list,R(p,k)就是指N(p,k)中相互互为前k个的gallery图片。但作者任务这还不够,为了进一步挖掘原始ranking list,对R(p,k)进行扩展:
对于原始ranking list每张图q,计算R(q,0.5k),如果这个q的R(q,0.5k)与R(p,k)的重叠超过2/3个R(q,0.5k),这样就将这些图也加入R(p,k)得到R*(p,k),这样可以充分利用一些不在top-k的正例,也会尽量避免掉负例混进来。
在得到了R*(p,k),对于p和每一个q后可以计算Jaccard距离,计算公式为:
即去求R*(p,k)和R*(q,k)的交并比。
此时的方法成功的挖掘了在rank list里的语义信息,得到了R*(p,k),并且据此计算了新的距离,但依旧存在以下问题:
1.交并比的计算的开销很大
2.按照刚刚的距离计算方法,对于R*(p,k)的结果,对于每一张图的权重相同,没有利用其顺序信息。
为了解决如上问题,将R*(p,k)编码成向量Vp=
其中:当时,=。否则为0。d(p,q)为p与q的原始距离,N为gallery的大小,有了这个向量后就可以将jaccard距离转化为:
从而解决了上述两个问题。
最终的距离计算公式为原始距离和jaccrad距离加权:
2.A Simple Baseline for Multi-Object Tracking
[2] Zhan Y , Wang C , Wang X , et al. A Simple Baseline for Multi-Object Tracking. 2020.
这是一篇MOT的文章,将检测和重识别的特征提取网络进行了统一。
MOT算法可以分为两类:oneshot(检测和重识别统一,精度较低,速度快)和twostep(检测和重识别分开,精度高,速度慢)
作者分析了过去oneshot方法精度较低的原因:基于anchor的检测方法,检测框内的人没有对齐,导致了提取特征的模糊性,为了解决这一问题,其提出了采用像素级的anchor-free方法。
算法的整体流程为:
2.1Backbone
在ResNet-34的基础上,基于DLA(Deep Layer Aggregation)进行改进的高分辨率特征提取网络,高分辨率可以提高像素级关键点检测的精度。提取到的feature map的长和宽为原图的0.25。后接两个平行的检测和重识别分支
2.2Detection branch
首先接256*3*3卷积得到最终的feature map,之后接1*1卷积分别输出heatmap,boxsize和center offsize,
heatmap为预测的人物中心点热图,大小为(1*H*W),其GT为以真实中心点的四分之一向下取整为中心的高斯核函数,叠加所有目标的热图形成整体的heatmap,Loss为Focal loss。boxsize为检测框的长和宽,大小为2*H*W。centeroffsize为中心点偏移,大小为2*H*W。两者的Loss为L1Loss。
2.3Re-ID branch
生成128*H*W的特征,使用分类的交叉熵损失为Loss。
2.4关联
关联帧的方法类似于Deepsort