行人属性识别:Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning

参考文献:Zhao X, Sang LF, Ding GG, Guo YC, Jin XM. Grouping attribute recognition for pedestrian with joint recurrent learning[C]. Twenty-Seventh International Joint Conference on Artificial Intelligence IJCAI-18. 2018.
代码实现:https://github.com/slf12/GRLModel
包括理解!

Grouping Attribute Recognition for Pedestrian with Joint Recurrent Learning

摘要

行人属性识别是从监控图像中预测行人的属性标签,由于图像质量差、训练数据量小,对计算机视觉来说是一项极具挑战性的任务。研究发现,待识别的语义行人属性往往表现出语义或视觉空间相关性。属性可以根据相关性进行分组,而以前的工作大多忽略了这一现象。受循环神经网络(RNN)超强的上下文关联学习能力的启发,提出了一种利用组内互斥和组间关联提高行人属性识别性能的端到端分组递归学习(GRL)模型(理解:组内互斥:一个人不能同时具有16-30岁和31-45岁的属性;组间关联:女性留长发的几率更高)。我们的GRL方法首先通过Body Region Proposal检测精确的身体区域,然后从检测区域提取特征。这些特征和语义组一起被输入到RNN中,用于递归的分组属性识别,在RNN中可以学习组内相关性。大量的经验证据表明,基于行人属性数据集,即标准PETA和RAP数据集,我们的GRL模型达到了最新的结果。

1 引言

行人属性,如年龄、性别和服装,是可供人类搜索的语义描述,可作为视觉监控应用中的软生物特征,如人的重识别【Layne等人,2012年;Liu等人,2012年;Peng等人,2016年】、人脸验证【Kumar等人,2009年】和人类识别【Reid等人,2014年】。与低级视觉特征相比,属性对角度变化和观察条件多样性具有鲁棒性。虽然从人脸识别的角度来看,行人属性识别是有益的,但很少有研究集中在人的全身上。在图像质量差、训练数据量小的情况下,从真实监控图像中识别行人属性具有内在的挑战性。高成像质量和大规模训练数据不适用于行人属性,例如,两个最大的行人属性基准数据集PETA[Deng et al.,2014]和RAP[Li et al.,2016a]仅包含9500和33268个训练图像。此外,行人属性的识别还必须处理监控场景中质量差、标签不平衡、外观变化复杂的图像

属性识别方法包括手工特征识别方法、CNN方法和CNN-RNN方法。早期的属性识别方法主要依靠手工制作的特征,如颜色和纹理【Layne等人,2012年;Liu等人,2012年;Jaha和Nixon,2014年】。最近,基于深度学习的属性识别模型被提出,因为它能够学习更具表现力的特征【Li等人,2015;Fabbri等人,2017;Liu等人,2017b】,这大大提高了行人属性识别的性能。例如,DeepMar方法【Li等人,2015】利用对象拓扑中的先验知识进行属性识别,并设计加权sigmoid交叉熵损失来处理训练属性识别模型时的数据不平衡问题。多向注意力模块应用于基于初始的深度模型HydraPlus Network【Liu等人,2017b】,以考虑视觉注意。CNN-RNN方法在挖掘标签相关性的多标签分类任务中取得了成功【Li等人,2017;Liu等人,2017a】。在行人属性识别任务中引入了一个循环的编码器-解码器框架【Wang等人,2017b】,旨在利用长短期记忆(LSTM)模型发现属性之间的相互依赖和关联。(这里列举的文献都是行人属性识别的经典算法)

行人属性总是表现出语义或视觉空间上的相关性,通过这些相关性可以对行人进行分组(理解:这里语义或视觉空间上的相关性包括了组内互斥和组间关联两种关系,把视觉空间分成了全身、头部、上半身、下半身几个部分)。例如,BoldHair和BlackHair不能出现在同一个人身上,因为它们都与一个人的头肩部位有关,所以它们可以在同一组中一起被识别。现有的方法试图分别挖掘属性间的相关性,但忽略了组内语义冲突和属性间的空间邻域关系(理解:就是说现有方法已经用RNN挖掘了属性之间的相关性,但是没有根据视觉空间分组,忽略了组内互斥和组间相关,空间邻域关系是视觉空间上组间关系,比如全身和头部之间的关系),能够提高了行人属性识别的性能。属性预测结果中存在两种类型的语义冲突。例如,一个人不能同时具有16-30岁和31-45岁的属性。如果这发生在预测结果中,则称为互斥共现。一个人不能既不是男性也不是女性。如果发生这种情况,则称之为“”。表1显示了现有行人属性识别方法DeepMar的年龄和体形语义冲突率【Li等人,2015】,另外,由于属性是单独预测的,不考虑空间局部属性群,使得属性的空间邻域关系难以处理。
在这里插入图片描述
为了解决这些问题,一个想法是利用属性之间的相互依赖和相关性【Chen等人,2012;Li等人,2015;Wang等人,2016;2017a;Zhu等人,2017】,而另一种观点则侧重于特定空间视觉区域的相关属性,旨在避免背景的负面影响【Li等人,2016b;Liu等人,2017b】。然而,在现有的方法中,这两种方案大多是独立研究的,即单独研究属性之间相关性和特定视觉区域属性内的互斥性

在这项工作中,我们建立了组内语义互斥和组间相关性的端到端递归架构。为了兼顾组内语义互斥关系和组间空间关联关系,提出了一种分组递归学习(GRL)框架,对行人属性进行分组识别。提出了一种新的分组属性识别网络,该网络专门用于行人属性的分组预测。该基于RNN的模型应用顺序分组属性预测,不同于现有基于CNN的属性预测策略【Li等人,2015;Fabbri等人,2017;Liu等人,2017b】。此外,与多模型联合递归学习(JRL)方法相比,它是一种无需预处理的端到端单模型方法【Wang等人,2017b】。在行人属性识别任务中,该方法比现有的方法具有更好的性能,能够更好地挖掘行人属性之间潜在的组内和组间依赖关系。总之,我们在本文中做出了以下贡献:

• 提出了一种新的行人属性识别方法GRL。据我们所知,这是第一个通过挖掘属性组的语义和空间相关性来逐组预测属性的工作。
• 采用单模型端到端的结构,易于训练,在特征提取前不需要进行更多的预处理,在属性预测后不需要进行多模型投票。
• 提出了一种用于挖掘属性组间相关性的递归学习方法。

2 相关工作

2.1 行人属性识别

行人属性识别被广泛用于人的识别【Jaha和Nixon,2014]和再识别[Layne等人,2012;Liu等人,2012;Peng等人,2016】。属性识别方法包括手工特征识别方法、CNN方法和CNN-RNN方法。早期的方法通常独立地建模多个属性,并基于手工制作的特征(如颜色和纹理直方图)为每个属性训练单独的分类器【Layne等人,2012;Liu等人,2012;Jaha和Nixon,2014】。随后,属性间相关性被视为用于提高预测性能的额外信息,例如,使用条件随机场或马尔可夫随机场捕获属性共现可能性的基于图模型的方法【Chen等人,2012;Deng等人,2015;Shi等人,2015】。但是现有的图模型在处理大量属性时计算代价很高。由于手工制作的特征识别性差,这些方法不能很好地工作

最近,行人属性识别任务中采用了基于深度CNN的方法【朱等人,2015;李等人,2015;苏德等人,2015;法布里等人,2017;刘等人,2017b】,以学习更多的表达性表征,从而显著提高行人属性识别的性能。DeepMar模型【Li等人,2015】利用对象拓扑中的先验知识进行属性识别,并设计了加权sigmoid交叉熵损失来处理属性识别模型训练时的数据不平衡问题。提出了空间注意方法【Liu等人,2017b;Fabbri等人,2017】,以避免不相关图像区域的负面影响。尽管基于CNN的方法通过使用深度卷积网络来学习更具表现力的行人特征,但它们在挖掘属性相关性方面一直存在不足

【Wang等人,2017b】提出了一种基于CNN-RNN的编解码框架,旨在利用LSTM模型发现属性间的相互依赖和相关性。但是,该方法没有考虑语义互斥约束和空间邻域。另外,利用多模型投票逐点预测属性在计算上非常昂贵。

2.2 Body Region Proposal

身体区域建议问题可以看作是一个目标检测问题。在目标检测任务中提出了基于区域建议的卷积网络(RCNN)方法,并取得了成功【Girshick,2015;Ren等人,2015】。提出了一种利用感兴趣区域(ROI)池层共享卷积特征图计算的快速R-CNN目标检测方法。然后采用同时预测每个位置的目标边界和目标得分的全卷积目标检测框架(RPN)【Ren等人,2015】进行实时目标检测,进一步提高了检测速度。

人体区域特征提取在个体识别中起着重要的作用。局部细节可以用区域特征更好地描述。一个完整的人体区域提议包括两个步骤,即人体关节定位和人体区域提议。为了获得更准确的局部特征,在人的再识别任务中,将RPN引入人体区域提议中【Zhao等人,2017年】,其中采用完全卷积网络(FCN)预测人体关节的定位,并将关节位置用于人体区域生成。在本研究中,我们使用此身体区域建议方法来侦测行人影像中的身体部位,并使用相关的空间区域来进行群组属性识别。图1显示了人体区域提议的流程。
在这里插入图片描述

3 Background

3.1 循环神经网络

3.2 LSTM

4 行人属性识别的分组联合递归学习

4.1 问题定义

分组行人属性识别有以下定义:给定 n n n张训练图像 I I I={ I 1 , … , I n I_1,…,I_n I1,,I

  • 0
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值