行人属性识别:Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute……

参考文献:Tang CF, Sheng L, Zhang ZX, Hu XL. Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute-Specific Localization[J].ICCV-2019.
代码实现:https://github.com/chufengt/iccv19_attribute
包括理解!

Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute-Specific Localization

摘要

行人属性识别是视频监控领域的一个新兴研究课题。为了预测某一特定属性的存在,需要对与该属性相关的区域进行局部化。但是,在此任务中,数据集中没有属性特定区域标注,如何划分这些与属性相关的区域仍然是一个挑战。现有的方法采用属性不可知的视觉注意或启发式的身体部位定位机制来增强局部特征表达,而忽略了利用属性来定义局部特征区域(理解:目前主要用注意力机制和人体区域提议来关注局部特征,如头部、上半身、下半身,但是它们都不是针对属性来关注局部特征)。我们提出了一个灵活的Attribute Localization Module(ALM)自适应地发现最具判别力的区域,并在多尺度上学习每个属性的区域特征。此外,本文还提出了一种特征金字塔结构(类似于FPN的结构),利用高层语义指导来增强低层的属性定位。该框架不需要额外的区域标注(以STN实现),可以在多尺度的深度监督下进行端到端的训练。大量实验表明,该方法在PETA、RAP和PA-100K三个行人属性数据集上取得了最新的结果。

1 引言

行人属性识别如性别、年龄、服装风格等,因其在视频监控应用中的巨大潜力而受到广泛关注,如人脸验证[10]、人的检索[2,27]和人的重识别[11,22,30]。近年来,基于卷积神经网络(CNN)[6,8]的方法通过从图像中学习强大的特征,在行人属性识别方面取得了很大的成功。已有的一些工作[13,28]将行人属性识别作为一个多标签分类问题,仅从整个输入图像中提取特征表示,这些整体方法通常依赖于全局特征,而区域特征对于细粒度属性分类更为重要
在这里插入图片描述
直观地说,属性可以定位到行人图像中的相关区域。如图1(b)所示,当识别长发时,有理由关注与头部相关的区域。最近的方法试图利用注意力定位来学习属性识别中的判别力特征,一种流行的解决方案[20,24,38]是使用视觉注意力机制来捕捉最相关的特征,这些方法通常是从某些层上生成attention masks,然后将它们相乘成相应的特征映射,从而提取出attention特征。然而属性给定区域的mask编码是不明确的,并且没有特定的机制保证属性和attention mask之间的对应,如图1(c)所示,学习到attention mask注意到一个不特定于所需属性(长发)的广泛区域。另一种方法是利用预定义rigid parts[40]或external part定位模块[15、19、34、35]。一些工作应用body-parts detection[35]、姿势估计[15,34]和人体区域建议[19]来学习基于part的局部特征,如图1(d)所示,这些方法从局部身体部位(如头部、上半身、下半身)提取局部特征。然而它们大多只是将基于part的局部特征与全局特征融合在一起,这仍然不能表示属性和区域之间的对应关系,但需要额外的计算资源来实现复杂的局部定位。(理解:注意力机制和人体区域提议网络都是得到广泛的人体局部,比如头部,头部的属性有很多个,比如头发、眼镜等,它们都不是针对属性得到局部区域,比如针对眼镜得到局部眼睛区域)

与这些方法不同,我们提出了一个灵活的Attribute Localization Module(ALM),它可以自动发现判别力区域,并以特定于属性的方式提取基于区域的特征表示。具体地说,ALM首先是一个微小的channel attention子网络,以充分利用输入特征的通道间依赖性,然后是空间变换器[9],以自适应地定位属性特定区域。此外,我们在不同的特征层嵌入了多个ALM(每个特征层有多少属性就有多少ALM),并引入了一种特征金字塔结构集成高层语义来增强低层的属性定位。此外,不同特征层的ALM由同一组称为深度监督(deep supervision)的属性监督训练,通过投票方案获得最终预测,以在不同特征层输出最大响应。该投票方案将建议在一个属性区域最精确的特征层上进行最佳预测,而不受不适当属性区域的特征层的负面干扰。提出的框架是端到端可训练的,只需要图像级的注释。这项工作的贡献可归纳如下:

• 我们提出了一个端到端可训练的框架,该框架在多个尺度上执行属性特定区域的定位,以弱监督的方式发现最具判别力的属性区域。
• 我们提出了一种特征金字塔结构,通过利用低级细节和高级语义,以相互加强的方式增强多尺度属性定位和基于区域的特征学习。通过有效的投票方案进一步融合多尺度属性预测。
• 我们对三个公开可用的行人属性数据集(PETA[1]、RAP[16]和PA-100K[20])进行了广泛的实验,并比以前的最新方法取得了显著的改进。

2 相关工作

2.1 行人属性识别

早期的行人属性识别方法[1,11,39]依赖于手工制作的特征,如颜色和纹理直方图,并分别进行训练,然而这些传统手工制作特征方法的性能远远不能令人满意。近年来,基于卷积神经网络的行人属性识别方法取得了很大的成功,Wang等人[31]简要回顾这些方法;Sudowe等人[28]提出一个整体的CNN模型来共同学习不同的属性;Li等人[13] 将行人属性识别问题转化为多标签分类问题,提出了一种改进的交叉熵损失函数。然而由于缺乏对属性先验信息的考虑,这些整体方法的性能受到限制。最近一些方法试图利用属性间的空间关系和语义关系来进一步提高识别性能。这些方法可分为三个基本类别:

Relation-based:一些文献[29,37]利用语义关系来辅助属性识别。Wang等人[29]利用属性间的依赖性和相关性提出了一个基于CNN-RNN的框架;Zhao等人[37]将属性分成若干组,并尝试探索组内和组间的关系。然而,这些方法需要人工定义规则,如预测顺序、属性组等,在实际应用中很难确定。
Attention-based:一些研究者[20,24,25,38]介绍了属性识别中的视觉注意机制。Liu等人[20] 提出了一种多方向注意模型,用于行人多尺度注意特征的学习分析;Sarafianos等人[24]扩展了spatial regularization module[38]以学习多尺度下的有效注意图。虽然识别精度有所提高,但这些方法都是属性不可知的,没有考虑到属性的具体信息。
Part-based:基于part的方法通常从一些局部的身体部位提取特征。朱等人[40]将整个图像分割成15个rigid块,融合不同块的特征;Yang等人[34]和Li等人[15] 利用外部姿态估计模块定位身体部位;Liu等人[19] 在将属性区域预先分配给EdgeBoxes[42]生成的一些固定方案时,也要以弱监督的方式探索属性区域,这是不完全自适应和端到端可训练的。这些方法要么依赖于预定义的rigid parts,要么依赖于复杂的part localization机制,这些机制对姿态变化的鲁棒性较差,并且需要额外的计算资源。相比之下,本文方法以特定于属性的方式定位最具判别力的区域,在现有的大多数工作中都没有考虑。

2.2 弱监督Attention定位

除了行人属性识别之外,在其他计算机视觉任务中也广泛研究了无区域标注的注意力定位思想。Jaderberg等人[9] 提出了一种著名的空间变换网络(STN),该网络能够以端到端可训练的方式提取任意空间变换的注意区域;最近的一些研究[14,17]采用STN对人体部位进行定位,以便于重新识别;Fu等人[3] 尝试将递归学习用于细粒度图像识别的判别区域;Wang等人[33]使用STN和LSTM搜索判别力区域以进行多标签分类,而不是以标签特定的方式。本文方法受这些工作的启发,能够自适应地对每个属性的单个信息区域进行定位。

2.3 特征金字塔结构

有几项工作利用自上向下或跳远连接,这些连接包含了不同层的特征,例如U-Net[23],Stacked hourglass network[21]。本文的特征金字塔结构类似于特征金字塔网络(FPN)[18],FPN已经在各种目标检测和分割模型中进行了研究[26,41]。据我们所知,这项工作是第一次尝试利用FPN思想来定位行人属性识别的注意区域。

3 本文方法

在这里插入图片描述
在这里插入图片描述
• 本文框架如图2所示,该框架由一个具有特征金字塔结构的主网络和一组应用于不同特征层的属性定位模块(ALM)组成,首先将无需额外区域标注的行人图像输入到主网络中,然后在自底向上的路径末端获得预测向量。ALM的详细信息如图3所示,每个ALM只对单个特征层的一个属性执行属性定位和基于区域的特征学习,对不同特征层的ALMs进行了深度监督训练。
• 形式上,给定输入行人图像 I I I及其相应的属性标签 y = [ y 1 , y 2 , … , y M ] T y=[y^1,y^2,…,y^M]^T y=[y1,y2,,yM]T,其中, M M M是数据集里的属性总数量, y m , m ∈ 1 , . . . , M y^m,m ∈ 1, . . . , M ym,m1,...,M是一个二进制标签,如果属性 m

  • 7
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值