摘要
作者调查了一下室外真实场景下的Person ReID工作,大部分相关工作都是detection+ReID分成两步来做的,这篇文章提出NPSM方法来实现一步到位。NPSM主要借助LSTM和attention的思想,逐步衰减原图中所应该关注的ROI区域,直到最后得到一个很精确的ROI区域,这个区域就是应该搜索的person目标。实验结果表明,在CUHK-SYSU和PWR数据集上都取得了State-of-the-arts的结果。
detection&ReID
上图给出了目前Person ReID的主流做法和本文做法的对比。(a)是主流做法,先会用一个detection的模型检测图片中的行人图片,可能存在错误检测的bounding box,然后用一个训练好的ReID模型把所有bounding box的图片和带检索的Query图片进行相似度比较,之后按照相似度进行一个排序,排名最靠前的就是检索的结果。
而NPSM则把两个结合起来,每次输入ROI区域图片,然后根据Query图片生成attention map,然后选择attention比较大的区域作为新的ROI区域。所以新的ROI区域是之前输入ROI区域的子集,进过LSTM反复衰减这个ROI,最终就可以得到一个比较精确的搜索结果。
当然这里不负责任的吐槽一下,这个插图很可能是为了体现这篇工作的一个“摆拍”。因为提供原图的ReID数据集比较少,论文里使用了CUHK-SYSU和PWR两个数据集,但是这幅图根据我的经验应该不属于这两个数据集,也许是为了体现主流方法失效而本文方法有效的一个摆拍吧。因为在着装非常类似的情况下,比如都穿黄衣服的两个行人主流方法确实很难区分,所以不是很清楚这个是不是为了写论文自己去拍的或者从数据集里面特意挑选的。不过这都没关系,作为一副插图,很明白的展现自己工作的创新点,一图胜千言,所以这幅插图是非常合格的。
Neural Search Networks
Neural Search Networks(NSN)主要的核心就是一个Conv-LSTM网络,CNN网络采用的是Resnet50。Resnet50被分成了两部分,前面几层浅层特征用来提取attention map,后面几层高层网络用来提取ReID所需要的feature。如上图所示,输入一张query图片,经过Resnet50(Primitive Memory)之后会输出两个,一个是ROI pooling得到的feature map,这个feature map用来输入到NSN里进行attention map的计算。另外一个就是输出的就行高层的ReID feature,这个feature将会输入到IDNet进行ReID的识别任务。
Query图片经过Primitive Memory网络的part1部分会得到一个attention map q ,之后
可以看出就是把