养成每天读文献的好习惯,随手一记,欢迎大家讨论指正~
论文:Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification,主要在文献Pose-Guided Feature Alignment for Occluded Person Re-Identification上进行改进
一、问题
1. 稀疏的姿态关键点会影响性能,姿态关键点多了又会引入噪声,造成估计误差。
2. 姿态估计模型和行人重识别任务的数据集存在一定差距
二、论文框架
文章主要的模块有两个,部分标签生成器(Part Label Generator)和区域可见度鉴别器(Region Visibility Discriminator),下面分别介绍下每个模块的具体实现细节。
1)部分标签生成器
首先利用姿态估计模型估计人体关键点,每个关键点会有置信度得分,再将标注好关键点的图片划分为N个部分,根据冗余投票策略判断N个部分的可见性(0为不可见,即遮挡,1为可见)。具体的做法如下:
j为第j个关键点, 为关键点置信度得分,当置信度得分大于等于阈值(超参数 )时,投票权重 为1,否则为0。计算每个部分的投票权重之和,表示为 ( i=1,...,N ),当 大于等于阈值W(超参数)时,标签为1(可见),否则为0(不可见)。
2)区域可见度鉴别器
区域可见度鉴别器由上面生成的部分标签(ground truth)优化。区域可见度鉴别器将划分后的部分特征映射为可见性分数,具体如下图,红框部分是区域可见度鉴别器的构成
三、损失计算
采用的是ReID中最常用的ID loss和Triplet loss。其中 Triplet loss公式如下:
其中 分别代表锚点、正样本和负样本,这里的距离D没有采用传统的欧几里得距离或者余弦距离。由于遮挡的存在,计算全局的距离显然是不合理的,因此作者沿用了之前文献的做法,只计算可见部分的距离,再加上一个全局距离,具体公式如下:
代表可见度得分, 代表part特征,F是全局特征。q代表query,g代表gallery,D代表余弦距离或者欧几里得距离。
总的损失包括全局特征的ID loss,N个局部特征的ID loss和Triplet loss,可见度得分和部分标签间的ID loss以及区域可见度鉴别器的Triplet loss。公式如下: