行人属性识别:HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

HydraPlus-Net是一种基于注意力的深度神经网络,旨在解决行人分析中的细粒度特征学习问题。通过多层注意图和多向注意特征,该模型能捕获行人图像的全局和局部信息,适用于行人属性识别和人的再识别任务。实验结果显示,HP-net在多个数据集上优于现有先进技术。
摘要由CSDN通过智能技术生成

参考文献:https://arxiv.org/abs/1709.09930
代码实现:https://github.com/xh-liu/HydraPlus-Net
包括理解!

HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

摘要

行人分析在智能视频监控中起着至关重要的作用,是以安全为中心的计算机视觉系统的关键组成部分。尽管卷积神经网络在从图像中学习判别力特征方面有着显著的优势,但是对于细粒度任务,行人综合特征的学习仍然是一个有待解决的问题。在本研究中,我们提出一种新的基于注意力的深层神经网络,称为HydraPlus-Net (HP-net),它可以将多层注意图多方向地反馈到不同的特征层。从所提出的HP-net中学习到的attentive深度特征具有独特的优点:(1)该模型能够从低层到语义层捕获多个attentions图;(2)探索了attentive特征图的多尺度选择性,丰富了行人图像的最终特征表示。通过对行人属性识别和人的再识别两个任务的分析,验证了所提出的HP-net在行人分析中的有效性和通用性。实验结果表明,在不同的数据集上,HP-net的性能优于目前最先进的方法。
理解:文章中的注意图和注意特征图是不一样的,注意图相当于注意mask,而注意特征图等于注意mask乘以输入特征)

1 引言

由于对智能视频监控和心理社会行为研究的不断需求,行人分析是一个长期的研究课题。特别是,随着近年来计算机视觉领域对深度卷积神经网络的研究日益增多,在行人分析中的应用也越来越多,如行人属性识别、人的再识别等,在现代监控系统中得到了显著的改进和实际应用。然而,行人图像特征表示的学习作为这些应用的骨干,仍然面临着严峻的挑战,需要深入的研究。

大多数传统的深度结构都没有提取出与高层全局特征互补的细节和局部特征,这对于行人分析中的细粒度任务尤其有效。例如,如图1(a)所示,如果在头发和肩膀周围没有提取语义特征,则很难区分两个实例,同样在图1(c)中,如果我们想要检测属性“calling”,有效特征应该位于小尺度头肩区域内。然而现有研究只提取全局特征[13,24,30],对位置感知语义模式很难有效提取。此外,众所周知,多层特征有助于完成不同的视觉任务[21,6],在行人分析中也出现了类似的现象,如图1(b)所示的属性“服装stride”应该从低层特征中推断出来,而图1(d)中的属性“性别”则是通过对整个行人图像的语义理解来判断的。与以往主要生成全局特征表示的方法不同,本文提出的特征表示方法encodes了多层特征模式以及全局和局部信息的融合,具有潜在的多层行人属性识别和人的再识别能力。
在这里插入图片描述
针对目前行人分析方法的不足,我们尝试用一个多方向网络HydraPlus-Net来解决行人分析的一般特征学习范式,该网络的提出是为了更好地通过单个行人图像的多层特征利用全局和局部信息。具体地说,我们提出了一个多向注意(multi-directional attention,MDA)模块,该模块从网络中的多个层(3个)提取注意图形成多个(3个)注意特征图(理解:从3个层分别提取注意图,每个注意图再乘以3个特征形成3个注意特征图,一共9个注意特征图)。由于注意图是从不同的语义层提取出来的,它们自然地模拟出同一行人图像在不同层的视觉模式。此外,利用同一注意图对多层特征进行过滤(理解:就是乘以多层特征),可以有效地融合来自某一局部注意分布的多层特征。将MDA应用于网络的不同层后,将多层注意特征图融合在一起,形成最终的特征表示。

本文框架以行人分析任务中的行人属性识别和人的再识别(ReID)为评价对象,其中,行人属性识别的重点是为每个行人图像分配一组属性标签,而ReID是将一个人的图像与多个摄像机和/或时间镜头相关联。虽然行人属性识别和ReID关注输入行人图像的不同方面,但是这两个任务可以通过学习相似的特征表示来解决,因为它们与相似的语义特征具有内在的相关性,一个任务的成功将提高另一个任务的性能。与现有的方法相比,我们的框架在大多数数据集上都达到了最先进的性能。

这项工作的贡献有三方面:
• 针对行人分析的细粒度任务,提出了一种基于多方向注意模块的HydraPlus-Net(HP-net),用于训练多层次、多尺度的attention-strengthened特征。
• 从行人属性识别和人的再识别两个方面对HP-Net进行了综合评价,与以前的方法相比,已经取得了显著的改进,达到了最先进的性能。
• 一个新的大规模行人属性数据集(PA-100K数据集)是收集到的场景最为多样,样本和实例数量最多的最新数据集。PA-100K数据集比以前的数据集信息量更大,有助于完成各种行人分析任务。

2 相关工作

• Attention models。在计算机视觉中,注意模型已经被应用于诸如图像字幕生成[34]、视觉问答[18,33]和目标检测[2]等任务中。Mnih等人[20] ,Xiao等人[32]探索了网络对图像或特征图某一区域的hard注意,与强化算法[28]训练的不可微hard注意相比,加权特征映射的soft注意是可微的,可以通过反向传播进行训练。Chen等人[4] 介绍了注意多尺度特征,Zagoruyko等人[35]利用注意进行知识转移。本文设计了一个多方向注意网络来更好地表达行人特征,并将其应用于行人属性识别和再识别任务中。据我们所知,这是在上述两项任务中采用注意概念的第一项工作。

• 行人属性识别。行人属性识别在视频监控系统中有着广阔的应用前景,近年来成为一个重要的研究课题。卷积神经网络在行人属性识别方面取得了很大的成功,Sudowe等人[24]和Li等人[13] 提出联合训练多个属性可以提高属性识别的性能。先前的工作也研究了在属性识别中利用姿势和身体部位信息的有效性,Zhang等人[37]提出了一种姿态对齐网络来捕获姿态归一化的外观差异。与以往的研究不同,我们提出了一种注意结构,这种注意结构可以在不预先了解身体部位或姿势的情况下,注意到重要区域并对齐身体部位。

• 人的再识别。特征提取和度量学习[12,17]是人的再识别的两个主要组成部分。图像分类中深度学习的成功激发了对ReID的大量研究[5,16,30,29,26,23,25,15,31],Li等人[16]提出filter pairing neural network(FPNN)联合处理错位、变换、遮挡和背景杂波,Cheng等人[5] 提出了一种基于多通道基于parts的CNN,从输入图像中学习人体特征。本文主要针对特征提取和余弦距离直接用于度量学习,此外我们的通道中使用了注意masks定位能够更好地描述每个个体的判别力区域。

3 HydraPlus-Net结构

HydraPlus network(HP-net)的设计动机是从多个层提取多尺度特征,这样不仅可以捕获输入图像的全局和局部contents,而且可以用不同层的语义组合特征。如图2所示,HP-Net由两部分组成,一部分是主网络(M-net),即一个简单的CNN结构;另一部分是注意特征网络(AF-net),包括应用于不同语义层的多方向注意模块(MDA)的多个分支,除了添加的MDA模块外,M-net和AF-net共享相同的基本卷积架构。它们的输出被连接起来(疑问:以什么样的方式连接起来?通道拼接还是通道相加等等),然后通过全局平均池(global average pooling,GAP)和全连接(FC)层进行融合,最终输出可以为行人属性识别或人再识别的特征向量。原则上,任何一种CNN结构都可以用来构建HP-Net,但是在我们的实现中,我们基于inception v2架构设计了一个新的端到端模型[10],因为它在与图像相关的一般识别任务中具有优异的性能。如图2所示,所提出框架的每个网络包含多个low-level卷积层,并且后面跟着三个inception块。该模型看似简单,但并不简单,因为它实现了所有必需的能力,并将它们结合在一起以提高识别能力。
在这里插入图片描述

3.1 Attentive Feature Network

图2中的注意特征网络(AF-net)由三个分支组成,这些分支由多方向注意模块(MDA)增强,即 F ( α i ) , i ∈ Ω = F(α ^i),i∈Ω= F(αi)iΩ={ 1 , 2 , 3 1,2,3 1,2,3},其中 α i α^i αi是由黑实线标记的inception块 i i i的输出特征生成的注意图,并应用于虚线中第 k t h k^{th} kth块( k ∈ Ω = k∈Ω= kΩ={ 1 , 2 , 3 1,2,3 123})的输出。对于每个MDA模块,有一个注意力生成环节和三个注意力特征构建环节。不同MDA模块从不同inception块生成注意图,然后乘以不同层的特征图,生成多层注意特征图。MDA模块的 F ( α 2 ) F(α^2) F(α

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值