行人属性识别:A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

参考文献:https://arxiv.org/abs/1901.05742
代码实现:https://github.com/yuange250/video_pedestrian_attributes_recognition
包括理解!

A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition

摘要

本文研究了基于视频的行人属性识别问题,挑战主要在于空间和时间建模,以及如何将它们结合起来实现有效的动态视频行人属性识别。针对这一问题,提出了一种基于传统神经网络和时间注意策略的多任务模型。由于公开数据集较少,本文提出了两种新的扩展属性定义的大规模视频数据集,并在此基础上验证了基于视频的行人属性识别方法和提出的新网络结构的有效性。这两个数据集发布在http://irip.buaa.edu.cn/mars_duke_attributes/index.html。

1 引言

行人的性别、年龄、衣着特征等属性在智能监控系统中应用广泛,近年来引起了人们的广泛关注,它可以用于检索行人和协助其他计算机视觉任务,如人类检测[1],人的重新识别[2,3,4,5,6,7,8]等。

近年来,人们对行人属性识别进行了大量的研究。Layne等[2] ,Deng等[9] ,Li等[3] 利用支持向量机对行人属性进行识别,Zhu等[10]利用AdaBoost进行识别。近年来,卷积神经网络(CNN)被广泛采用,Sudowe等[11] 提出一个联合训练的整体CNN模型,Li等[12] 提出个人和群体属性CNN模型,Liu等[13] 将注意力模型引入基于CNN的行人属性识别中,Wang等[14] 使用递归学习来建模属性相关性,Zhao等[15] 通过分析组内和组间的相关性进一步改进了递归学习方法。由于服装属性与空间位置高度相关,Zhang等[16] ,Li等[17] 使用了姿势估计。

虽然性能良好,但上述方法都是基于静态图像的,它们在每个实例只有一个图像的数据集上进行训练和评估[9,18,19,20,21,22,23]。但是,在实际的监视场景中,可以使用连续的图像序列。从图1(a)可以看出,对于一个特定的属性,单个行人快照(虚线矩形)不一定是最具代表性的。除此之外,序列数据还可以提供强的时间线索(见图1(b)),这在现有的基于图像的方法中是被忽略的。此外,如图1(c)和图1(d)所示,视频数据在处理一些特殊情况和质量问题方面显示出明显的优势。基于视频的行人属性识别方法是合理的。
在这里插入图片描述
本文提出了一种基于视频的行人属性识别的深度学习方法,据我们所知,它是第一个利用视频进行行人属性识别的方法。现有方法仅限于静态图像的原因可能是缺乏数据,为了解决这一问题,我们对两个具有丰富属性的大规模行人图像序列数据集进行了标注,实验结果表明该方法是有效的。本文的具体贡献包括:

提出了两个具有丰富属性标注的大规模行人视频数据集
提出了一种基于传统神经网络和时间注意策略的多任务模型用于行人属性识别
• 进行了大量的实验,实验结果清楚地显示了基于视频的行人属性识别的优越性。

本文的其余部分安排如下:第二节描述带注释的数据集,第三节介绍了提出的基于视频的行人属性识别方法,实验结果见第4节,结论见第5节。

2 数据集

现有的行人属性识别数据集主要是基于图像的,如PETA[9]、RAP[18]和Market-1501[19,24]。幸运的是,随着基于视频的人的再识别(ReID)技术的发展,大规模的行人图像序列数据成为可能。Motion Analysis and Re identification Set(MARS)[25]和DukeMTMC-VideoReID[26]是最新发布的数据集,MARS由6个摄像头捕获的1261人的20478个轨迹组成,而DukeMTMC-VideoReID数据集包含8个摄像头捕获的1402个不同行人的4832个轨迹。MARS是Market-1501的扩展,它们具有相同的身份,DukeMTMC-VideoReID也是DukeMTMC-ReID的扩展,DukeMTMC-ReID也遵循相同的身份规则。尽管Lin等[24]为Market-1501和DukeMTMC-ReID提供了身份级别的属性注释,但这些注释不能直接用于MARS和DukeMTMC-VideoReID,原因有二:第一,基于图像的数据集和基于视频的数据集之间的实例对应不是一对一的;第二,如图3所示,由于一些时间的变化,即使是同一个人在不同的轨迹中,存在一些属性出现而一些属性消失。因此,Market-1501和DukeMTMC-ReID的标识级别注释对于MARS和DukeMTMC-VideoReID是不准确的。
在这里插入图片描述
为了解决上述问题,我们使用基于Lin等[24]的扩展属性定义重新标记MARS和DukeMTMC-VideoReID来构建新的数据集。如图2所示,MARS数据集中的每个轨迹有16种属性:运动(行走、站立、跑步、骑自行车、各种)、姿势(正面、侧面正面、侧面、侧面背部、背部、各种)、性别(男性、女性)、头发长度(长、短)、上衣/袖子长度(长、短)、裤长(长、短),下装类型(裤子、连衣裙),戴帽子(是、否),背包(是、否),手提包(是、否),九种底色(黑色、白色、红色、紫色、黄色、灰色、蓝色、绿色、复合色),十种上装颜色(黑色、白色、粉色、紫色、黄色、灰色、蓝色、绿色、棕色,复杂)和四种年龄(儿童、青少年、成年人、老年人),属性总数为52。DukeMTMC-VideoReID数据集也使用相同的扩展属性定义规则重新注释。
在这里插入图片描述
属性可以分为两类:身份相关属性和行为相关属性。现有技术只关注前者,因为它们的主要目的是从监控视频中检索人。然而,从图2(左栏)可以看出,与行为相关的因素可以极大地影响行人外观。我们认为识别这些属性不仅有助于行人的全面理解,而且有助于身份相关属性识别,因为排除行为引起的差异可以提高对包含相同属性特征的显著帧的关注(理解:把行为属性和身份属性分开,这样就互不影响,不同帧的图像对相同属性特征的贡献不相同,应关注每个帧对属性的重要性,找出显著帧)。

3 方法

在这一部分中,我们首先描述了行人属性识别网络的总体结构,然后详细介绍了该体系结构的时间注意策略。

3.1 网络架构

在这里插入图片描述
我们提出的模型的总体架构如图4所示。在网络开始时,我们选择ResNet-50[27]作为骨干模型,最后一个flatten层的输出作为frame-level空间特征,然后将网络分为两个通道:运动姿态通道和ID相关通道。我们之所以将分类器分为两个通道,是因为运动姿态属性与ID无关,其分类器相对于ID相关属性会关注空间特征的不同部分,因此直接在所有ID无关和ID相关属性分类器之间共享相同的空间特征将导致对于一个特征竞争的情况,这意味着与ID无关的分类器和与ID相关的分类器在训练过程中会相互约束,实验验证了这种分离方法的有效性。(理解:运动姿态通道和ID相关通道分别对应身份相关属性和行为相关属,它们俩无关,如果共用特征会相互约束)

I =

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值