1 引用
2. 背景介绍
2.1 与HAR的区别。
PAR(Pedestrian Attribute Recognition) and HAR(Human Attribute Recognition)
● 低分辨率
● 一张图只有一个主要人员,且人处于图片中心
● 无框无标注
2.2 现存方法
行人属性识别的三类方法:
- Relation-based
- 利用语义关系来辅助属性识别。利用属性间的依赖性和相关性或将属性分成若干组,并尝试探索组内和组间的关系。
- 缺点:需要人工定义规则,如预测顺序、属性组等,在实际应用中很难确定。
- Attention-based
- 使用视觉注意力机制来捕捉最相关的特征:从特征层生成attention masks,再将其与对应的特征图相乘。
- 缺点:使用哪个mask来编码给定的属性区域是不明确的,没有任何机制保证属性与提取出来的特征对应。虽然识别精度有所提高,但这些方法都是属性不可知的,没有考虑到属性的具体信息。
- Part-based
- 使用预定义的模板部位或者外部身体部位单元或者使用姿态预测来先找到身体部位,然后从这些部位上提取特征。
- 缺点,仍然是全局特征,并且需要额外的计算来定位身体部位。这些方法要么依赖于预定义的rigid parts,要么依赖于复杂的part localization机制,这些机制对姿态变化的鲁棒性较差,并且需要额外的计算资源。
3 设计思路
3.1 Feature Pyramid Architecture 特征金字塔
类似于FPN的特征金字塔结构。
以BN-Inception为骨干网络实现自底向上路径,有不同的特征层,每个特征层包含多个inception块。分别从incep_3b、incep_4d和incep_5b三个不同层生成自底向上的特征,选定的起始块都处于对应阶段的末尾,应该具有该层最强的特征。
此外,自上而下的路径包含三个横向连接和两个自上而下的连接,更高级的特征通过自顶向下的连接进行传输,同时进行上采样操作。相邻层的特征连接如下:
3.2 Attribute Localization Module 属性定位模块
3.2.1 SE-Net(Squeeze-and-Excitation Networks)
- Squeeze,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野。
- Excitation,它是一个类似于循环神经网络中门的机制。通过参数来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间的相关性。
- Reweight,我们将Excitation的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。
得到的结果scale用来刻画tensor U中C个feature map的权重。而且这个权重是通过前面这些全连接层和非线性层学习得到的,因此可以end-to-end训练。这两个全连接层的作用就是融合各通道的feature map信息,因为前面的squeeze都是在某个channel的feature map里面操作。
3.2.2 STN(Spatial Transformer Network)
3.2.3 可视化
由于属性区域位于feature-maps内,而特征图像素与输入图像像素之间的对应关系不是唯一的。对于相对粗糙的可视化,我们只需SPPNet一样,将feature-level像素映射到输入图像上的中心。如图5所示,我们显示了六个不同属性的示例,包括抽象属性和具体属性。正如我们所看到的,所提出的ALMs能够成功地将这些具体属性,例如背包、塑料袋和帽子,定位到相应的信息区域,尽管存在极端的遮挡(a,c)或姿势变化(e)。在识别更抽象的属性Clerk和BodyFat时,ALMs倾向于探索更大的区域,因为它们通常需要从整个图像中获取高级语义。此外,还提供了一个错误案例,如图5(d)所示。在识别BaldHead秃头时,ALMs无法将期望区域定位在两个较低的特征层。我们认为这个问题源于高度不平衡的数据分布,在RAP数据集中只有0.4%的图像被BaldHead注释。虽然这些局部属性区域相对粗糙,但仍然可以用于识别属性,因为它们确实捕获了这些具有较大重叠的最具判别力区域。
3.3 Deep Supervision 深度监督
3.3.1 说明
训练时每个尺度都计算损失,推理时采用最大投票方案选择最大值。
在训练过程中,四个单独的预测由真实标签直接监督。在运算时,四个预测向量通过一个投票方案聚合,该方案在不同的特征层上产生最大的响应。这种设计的初衷是,每个ALM都应该直接接受局部区域是否准确的反馈。如果我们只保留对融合预测(最大值或平均值)的监督,则梯度对于每个特征层的执行情况没有足够的信息,因此会导致某些分支的训练不足。采用最大投票方案可以从属性区域最精确的不同层次中选择最优预测。
3.3.2 损失函数
由于不同属性在数据集中的分布是不均衡的,所以引入了权重。
加权二元交叉熵损失函数
4. 评估
4.1 mA
4.2 关键部分的有效性
4.3 与其他方法的比较
对于参数的数量,理论上,每个ALM中都有 ( C 2 / 8 + 4 C )可训练的参数:4C来自STN模块, C 2 / 8 来自channel-attention模块,其中 C 是输入通道的数量。如表中所示,所提出的模型比以前的模型具有更少的可训练参数,就模型复杂度而言,即使有51个属性,由于相比骨干网中只增加了0.17个GFLOPs,因此该模型仍然是轻量级的。原因是ALM只包含FC层(或1×1 Conv),这比3×3卷积层涉及的参数要少得多。