文章链接:[1707.00408] Pedestrian Alignment Network for Large-scale Person Re-identification
代码链接:layumi/Pedestrian_Alignment
发表于 IEEE Transactions on Circuits and Systems for Video Technology
1.Motivation
近年来,对行人再识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设计(比如设计loss,triplet loss,identi+verif loss),或者集中于语法层面上(利用人体的内在结构,比如水平切割,pose预测)。
这篇文章集中于语法层面上,也就是利用人体结构来增强识别能力。现阶段行人重识别的发展一部分是归因于大数据集和深度学习方法的出现。现有大数据集往往采用自动检测的方法,比如DPM 来检测行人,把行人从背景中切割出来。或者花钱,邀请很多标注者一起来抠人,标注数据。
但是 自动检测会包含错误,影响下一阶段的学习和识别; 人为抠的行人图像 虽然明显错误较少,但包含不同的bias,也同样未必适合下阶段 深度学习方法的学习。 所以一个直接的想法: 让深度学习方法自己来矫正输入,学习一个二维的变换,把行人对齐好以后,再做下一步的