re-id论文阅读:1.Improving Deep Visual Representation for Person Re-identification by Global and Local Im

ECCV2018 re-id文章阅读:
《Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association》

摘要:行人再识别的一个重要任务就是要求学习到具有区分度的视觉特征用于区别不同的行人身份。各种各样的辅助信息已经被用于提高视觉特征的学习。本文中,我们提出了使用自然语言描述符作为辅助训练监督有效的视觉特征。比较于其他的辅助信息,语言可以从更紧凑和语义的视觉方面描述特定的人,因此与像素级图像数据互补。我们的方法不仅通过对整体描述的监督来学习更好的全局视觉特征,而且还通过构建全局和局部图像语言关联来实现局部视觉和语言特征之间的语义一致性。根据身份标签建立全局图像语言关联,而局部关联基于图像区域和名词短语之间的隐式对应关系。大量实验证明了使用语言作为两种关联方案的训练监督的有效性。我们的方法在测试期间不使用任何辅助信息就实现了最先进的性能,并且显示出比图像语言关联的其他联合嵌入方法更好的性能。
关键字:行人再识别,Local-global language association(局部-全局语言关联),Image-text correspondence(图像文本对应)

1.介绍

作为的辅助信息可以是camera ID information摄像头的ID信息,行人姿态human poses,行人属性person attributes,深度图depth maps,红外行人图infrared person images。这些数据被用作增强的图像间相似性估计[32,54,59]的增强信息或可以规范特征学习过程的训练监督[33,48]。 我们的工作属于后一类,并建议使用语言描述作为培训监督来改善行人的视觉特征。 与其他类型的辅助信息相比,自然语言提供了一种灵活而紧凑的方式来描述区分不同人的显著视觉方面。 以前基于语言的人re-ID [26]的努力是关于交叉模式图像文本检索,旨在从文本查询设置的图库中搜索目标图像。 相反,我们感兴趣的是当语言仅在训练阶段使用时,语言如何帮助图像到图像搜索。 这个任务是具有意义的,因为它需要详细了解图像,语言和跨模式对应的内容。
为了利用语言描述中传达的语义信息,我们不仅需要识别最终的图像表示,还需要优化中间特征和语言特征之间的全局和局部关联。全局图像语言关联是从其ID标签中学习的。也就是说,整体图像特征和文本特征应该对同一个人具有高度相关性,并且当它们来自不同的人时具有低相关性(图1,左)。本地图像语言关联基于图像区域和名词短语之间的隐式对应关系(图1,右)。如在耦合的图像 - 文本对中,文本中的名词短语通常描述图像中的特定区域,因此短语特征与一些局部视觉特征更相关。我们设计了一个深度神经网络,通过注意机制自动关联相关短语和局部视觉特征,然后聚合这些视觉特征来重建短语。推理这种潜在的和模型间的对应使得特征嵌入可解释,可以用作特征学习的正则化方案。
概括来说,我们的贡献有三点:(1)我们提出了使用语言描述作为训练监督学习更具区分度的行人再识别视觉表示。这与针对跨模态检索的现有文本-图像嵌入(text
-iamge embedding)方法不同。(2)我们提供了两种有效且互补的图像-语言(image-language)关联方案,它们利用语义(semantic),语言信息(linguistic information)来指导不同粒度的视觉特征的学习。 (3)广泛的消融研究(ablation studies)验证了两种关联方案的有效性和互补性。 我们的方法在人员重新识别方面实现了最先进的性能,并且优于传统的跨模式嵌入方法。

2.相关工作
[47, 59, 61] 行人姿态标记得到行人身体区域,他们首先根据区域分解特征图,然后融合它们以创建良好对齐的特征图。Lin等人。 利用相机ID信息通过保持相机网络中的一致性来辅助图像间相似性估计[32]。 此外,已经在人re-ID中采用了诸如深度相机[7]或红外[54]相机的不同类型的传感器以生成更可靠的视觉表示。 对于这些方法,辅助信息用于训练和测试阶段,需要额外的模型或数据采集设备用于算法部署。 不同的是,人的属性通常作为一种训练监督。 例如,Lin等人。 [33]通过联合优化识别损失和属性分类损失,提高了中间特征图的可解释性。 虽然属性证明对特征学习很有帮助,但是它们很难获得,因为人们需要记住数十个注释的属性标签。 它们在描述人类外观的各种变化方面也不太灵活。
关联图像和语言有助于建立相互关系的对应关系。近年来,由于其在图像字幕[13,20,35,51,57],视觉QA [4,19,30]和文本图像检索[18,41]中的广泛应用,它引起了极大的关注。这些跨模式关联可以通过生成方法或判别方法来建模。生成模型利用图像或文本[39,51],并具有流行的应用,如字幕生成[3,35,43,51,57]和图像生成[41,42]。另一方面,还开发了用于图像 - 文本关联的判别模型。 Karpathy和Fei-Fei [21]制定了双向排名损失,以关联文本和图像片段。里德等人。 [41]提出了深对称结构化关节嵌入,并强制匹配图像文本对的嵌入应该高于不匹配对的嵌入。我们的方法结合了判别和生成方法的优点,以不同的粒度构建图像 - 文本关联,其中语言描述充当训练监督以改善视觉表示。

3.我们的方法
在这里插入图片描述
除了原始ID标签之外,我们还旨在利用人物图像的语言描述作为训练监督,以获得更好的视觉表现。 视觉表征不仅要求对不同的人具有辨别力,还需要与语言表征保持一致。 因此,我们提出全球和本地图像语言关联方案。 一个人的全局视觉特征应该与同一个人的语言描述特征更相关,而不是与另一个人的语言描述特征相关。 与现有的跨模式关节嵌入方法不同,我们不要求将视觉和语言特征映射到统一的嵌入空间。 此外,基于图像和语言在空间上可分解和在时间上可分解的假设,我们还试图找到图像区域的特征与名词短语之间的相互对应关系。 整体框架如图2所示。

3.1视觉和语言表达

图1.局部关联旨在模拟名词短语和图像区域之间的对应关系。 全局和本地图像语言关联用于监督人类视觉特征的学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值