简介
person re-identification是一个越来越热门的研究领域,其研究的问题是辨别从两个摄像头中捕获到的两张行人图片是否是同一个目标对象的。个人理解,reid问题与人脸识别存在的差异主要在于人脸识别主要通过脸部特征进行识别,而reid问题的两个输入图像则更关注于人的整体,由于监控摄像头的角度等问题,无法给到像人脸一样的正面特写,所以我们只能通过其他的一些特征来进行判断。做reid问题常见的两种思路分别如下:
- SIR: Single-Image Representation,即对两张图片分别提取一个特征,然后通过 l2 距离,cosine相似度等指标计算两个特征之间的距离并与阈值对比以完成reid问题
- CIR: Cross-Image Representation,即对两张输入图片提取一个共同的特征,然后用神经网络,SVM等分类器对这个特征进行二分类问题以解决reid问题
本文尝试通过SIR和CIR的融合,来提神模型在reid问题上的精确度。
待解决问题
两种基本的解决思路中,SIR的优势在于效率,当特征提取方法(模型)确定后,我们对gallery中的图片只需要事前提取一次特征,每次拿到probe的图片再对其提取一次特征,然后计算相似度即可。而CIR呢则需要每次拿到一个probe图片都根据probe和gallery中的每张图片计算两张图片的一个共同特征,所以效率上SIR是更加好的。虽然效率上CIR较SIR差,但是CIR更加善于发现两张图片之间的潜在相关关系,所以可以说CIR在准确度上更为出色。
本文尝试通过分析SIR和CIR两种方法之间的关系,以融合两种方法,使得新方法在效率(efficiency)以及准确度(effectiveness)上都能得到保证。
解决方法
分析SIR和CIR之间的关系
作者认为SIR是特殊形式的CIR,下面以 l2 距离为例。记 SCIR(xi,xj)=wTg(xi,xj)−b , SSIR=||f(xi),f(xj)||22 。其中 g(xi