Gu X, Chang H, Ma B, et al. Clothes-Changing Person Re-identification with RGB Modality Only[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 1060-1069.
概要:
本篇的研究任务是一项很有意思的工作,也许是行人重识别的任务较为具体,贴近日常生活,所以即使我并不了解这个领域,文章读起来也没有很大的障碍。
本篇论文的任务是行人重识别:具体来讲的话,是在image或者video中,找我们的 target person
那本篇论文侧重的呢,就是当我们的目标人物changed his or her clothes。这种现象在日常场景中发生的很多。一般长时间的情况下,比如说我们第一天出现在商场的监控视频中,那下次我们极大的可能跟这次所穿的衣服不是一件。
而目前的行人重识别算法多数只能针对不改变着装的,也就是相当于针对的是短时间内的行人重识别。
但是短时内的行人重识别针对clothes-changing这种情况也比较常见,比如说犯罪分子通常情况下会特意改变着装,以躲避侦察。
以上是本文的前提背景,相当于研究动机。
提前说一下,本文的着重点在于loss的设计,从而引导模型改变特征学习的侧重点。
(当然,本文中还有一个创新处在于建造了clothes-changing的re-id数据集,在这里我就直接跳过,因为对于我来说,这里的数据集建造没有借鉴意义)
方法:
先来看一下,这是本文提出模型的总的框架图。
除掉我圈出的部分,其余是re-ID任务的一般思路:
-
先通过一个backbone网络对输入图像做特征提取;
-
通过ID分类器(相当于softmax),根据预测身份与groud-truth标签进行比较,进行loss
这种简单的模型在学习过程中会偏向于学习到同一件衣服的人,
举例来说明就是,对于同一个ID的不同穿着c1,c2,...... 模型也是会判断为不同的ID,也就是说模型倾向于去走这个捷径,学习一些简单的差异,以为这些特征是区别不同ID的关键。
再比如本文通过这种热点图,在一开始展示出的:图(b)这种,模型在不关注衣服的情况下,也会倾向于学习人脸这种更加明显的特征。
但有时候像人脸这种关键信息,也许我们很难获取的到。
因此本文就是基于以上讨论与问题分析,开展自己的研究工作。
先不看本文工作,我们先来思考一下:
那对于变装的行人重识别任务,问题的关键在于什么?
——让我们的模型学习到除了衣服之外的,其余的可以辨别身份的特征(也就是文中所说的 clothes-irrelevant information比如说:脸,轮廓,体态)
本文的method:
第一阶段:
衣服分类器
此时再来看本篇论文的框架图,在一般方案的基础上,还提出了一个衣服分类器,用于对同一ID的不同clothe进行分类:总的clothe类 = ID数 × 每个ID对应的clothe类别数。
好。到这里,大家一定跟我一样有个疑惑,就是,这个衣服分类器对我们的任务能有什么用呢?如何用这个分类器来辅助我们的任务呢?
不要着急,我们接着往下看。
第二阶段:
学习衣服不相关特征
雏形思路:造一个跟Lc完全相反的Lca,这样的话,已经训练好的衣服分类器就不能区分训练集中所有类别的衣服了。
但是,衣服分类器是一个细粒度的辨别器,如果惩罚它对于所有衣服种类的预测辨别能力,也会使得它对于人身份的辨别能力下降。
因此这里感觉不好惩罚它
再次明确我们想要的:使得衣服分类器不能辨别出同一个身份的不同着装。
于是,作者又换了种思路,将Lca设计成:a multi-positive-class classification loss ,这里感觉就是跟无监督正负样本那里类似的思想方式了。来自同一身份的不同衣服类别属于正样本。
于是
但是这种方式仍然存在一个问题:最小化这个损失函数,也就是最大化黄色波浪部分的点乘的时候,变装的行人重识别准确率确实会提高;同时,不改变衣着装的行人重识别准确率却会因此减小。
为了同时提高以上两种情景下的识别准确率
对于Lca做了进一步修改,如下:
(私认为这里的思路分析体现出了作者高超的写作水平,通过对比各种解决问题策略的优略,在逻辑上层层递进,来凸显所提出的最终解决方案的合理性和优越性。这种将思路与改进过程作为逻辑线写作的手段是值得我们学习的。)
综上,这一步优化的目标就是:
ok,到这里,基本就拨开云雾了。