在CVPR2022上,小红书多模态算法组提出一种新颖的用于行人重识别的网络Neighbor Transformer (NFormer),区别于传统的行人重识别网络仅仅对单张图片进行建模,NFormer对通过transformer对多张输入图像进行交互式建模以获得鲁棒的特征表达,除此之外,NFormer还提出了Landmark Agent Attention 和Reciprocal Neighbor Softmax模块来降低多张图片交互建模时的计算复杂度。实验表明NFormer在多个数据集上性能表现SOTA(state-of-the-art)!
在小红书,大规模图像检索技术应用于搜同款穿搭、相似图片等多项业务中,行人重识别(Person re-identification)作为图像检索中的的一个重要子问题,是指利用用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在真实场应用场景中,由于行人外观易受穿着、尺度、遮挡、姿态和视角等影响,以及不同摄像设备之间成像效果的差异,使得行人重识别成为计算机视觉研究领域中一个极具挑战性的热门课题。
得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展,目前主流的行人重识别的方法均基于表征学习框架,即基于Metric Learning技术,来学习行人的向量化表征。在训练时,网络要求将属于同一ID的行人特征聚集的同时将不同ID的行人的特征区分开。在检索时,首先利用网络提取数据库中所有行人的特征构成底库,再将待查询的行人特征与底库特征进行匹配来实现检索。
在传统方法中,网络仅仅考虑从单张图片中获取表征,忽略了图片间潜在的关联, 然而我们认为这种关联能帮助单个图片获得更好的表征。在论文NFormer: Robust Person Re-identification with Neighbor Transformer中,我们提出Neig