Pedestrian Attribute Recognition

最新推荐文章于 2025-02-13 16:10:46 发布

阿杰洛克之地

最新推荐文章于 2025-02-13 16:10:46 发布

阅读量3.7k

点赞数 4

分类专栏： pedestrian attribute recognition

pedestrian attribute recognition 专栏收录该内容

1 篇文章

订阅专栏

行人属性识别主要挑战

行人属性识别属于多标签分类问题，但因为其众多属性分处不同的特征层次以及不同的大小规模，对属性的识别效果，尤其是在监控环境下基于低质量图像的对属性的识别效果一直不甚理想，目前最state-of-the-art的算法也只能在mA上达到80%左右的准确率。具体地，行人属性识别主要存在以下几个问题：

针对细粒度的属性，如眼镜，配饰，传统的直接提取整幅图像特征的方法无法很好的识别这些属性。行人的属性各不相同，有的属性需要浅层特征，而有的属性需要高层特征，有的属性需要局部特征，有的属性需要全局特征才能识别。那么如何提取一个能够包括所有以上针对不同属性的特征就成了至关重要的问题。
每个属性的收敛速度不同导致不同的属性会在训练过程中影响到识别其他属性的效果。（通过设置损失函数权重解决）
同一个属性在不同的样本中所处位置可能不尽相同，如人们背包的位置多种多样，那么针对这种属性我们应该怎样消除不同样本间属性位置不同带来的影响。（通过中层特征对属性进行粗定位是一种缓解方法）
如果不用人工框图而是利用行人检测器检测出来的行人框，行人所处的位置可能并不在图片中央，行人所占的比例可能也不是图片中的主体，这会影响到属性识别的效果。

数据集

数据集方面比较著名的是RAP数据集和PETA数据集。另外，17年公开的最新最大的数据集PA-100K克服了前两个数据集中一些数据采集和分配方面的缺点，但是只进行了26个属性的标注。

RAP

RAP是2016年提出的针对行人属性识别的数据集，可以说是截至2017年底最大最权威的行人属性识别数据集。目前，基本上所有的state-of-the-art的算法都会在RAP数据集上进行测试并作为衡量算法效果的第一指标。此外，RAP数据集还针对行人拍摄位置进行了不同viewpoint的分类和不同行人遮挡部位的分类，并在其论文中详细介绍了不同拍摄视角和不同遮挡部位对行人属性识别带来的影响。RAP数据集需要通过机构邮箱申请.
RAP数据集包含41585张行人样本，分为69个二分类属性和3个多分类属性，分辨率范围：36 * 92 to 344 * 554.

其样本的viewpoint和occlusion分布如下所示：

其属性标签如下所示：

对不同身体部分的标注和一些属性标注示例如下：

PETA

PETA是2014年发布的数据集，是第一个针对行人属性识别的上万规模的数据集。其收集结合了10个行人再识别小数据集，共19000张行人样本，包括8705个行人。每个样本分为61个二分类属性和4个多分类属性。分辨率范围：17 * 39 to 169 * 365.

目前的工作都是从PETA中选出了35个属性进行识别，具体如下：

PETA有一个问题是，其关于属性的标注是基于行人ID标注的。也就是说，只要是同一个行人，不管他的某些属性在某张图片里是否是可见的，他的标注都是一样的。

PA-100k

PA-100K是2017年底发布的最新的，最大的，针对行人属性识别的数据集，包括10万个行人样本，每个样本分26个属性。分辨率范围：50 * 100 to 758 * 454.

评价指标

目前衡量行人属性识别效果的评价指标主要有两个，mA和example-based evaluation。

mA

mA分别计算每个属性正样本和负样本分对的比例，再二者平均作为这一个属性的准确度，接着再对所有属性取平均作为最后的mA指标。

具体计算如下所示：

example-based evaluation

这组评价指标针对每个样本进行评价，通过计算每个样本分对属性和分错属性的关系计算一组指标。

具体计算如下所示：

主流方法及未来方向

最早的行人属性识别通过人工提取特征，并针对每个不同的属性分别训练分类器。随着CNN的发展，人们开始尝试把所有属性置于同一个网络进行多任务训练，并发现多任务训练能够带来更好的效果。目前行人属性识别的基本方法是将整个图片扔进同一个CNN网络，并输出多个代表属性的标签进行分类。

基于这个最基本的方法，目前最新的工作主要集中在如何对不同粒度、不同规模的属性进行识别，如何通过提取场景中的上下文信息辅助属性的识别，以及如何提取不同属性间的相关性信息。

一般地，不同粒度属性的提取通过建立不同网络层次的分支分别进行提取，再将不同分支提取的特征进行拼接作为最终特征。
上下文信息的提取通过建立LSTM网络结构，使得上下文能够传入到后续提取特征的过程当中。不同属性间相关性信息通过多属性联合训练或利用LSTM网络保存上一个属性的识别信息进行提取。

关于行人属性识别的未来发展趋势，因为考虑到目前这个领域基于CNN的方法也只是刚刚起步，各方面资料和数据都不算完备，还有许多需要改进的地方。这里我只针对我认为的几个比较重要的发展方向进行猜想：

在识别过程中考虑不同viewpoint和不同遮挡对属性识别的影响，这需要在训练过程中就加入以上两个方面的元素，并设计新的训练逻辑来利用带有不同viewpoint标注的数据。
设计更好的网络结构全方位的提取不同粒度不同规模的属性特征。我们知道不同的属性需要提取不同层次的特征，目前的方法主要通过设置多个分支来解决这个问题，但是我感觉针对分支的设置以及注意力机制的结合，这个方法还可以再继续优化。
怎么结合检测进行行人属性识别。目前属性识别的研究几乎都是针对检测好的行人框，但是真实场景中需要检测和属性识别一体化的系统。
针对不同的场景，挑选合适的属性。不同的场景对属性的需求也不同。考虑到不同的属性由于其不同粒度和规模的特征，会对模型产生很大的影响，所以我认为针对实际场景我们应该挑选需要的属性，分析属性信息属于的特征层次并由属性驱动我们设计针对性的网络结构。

下阶段发展方向

基于目前对于行人属性识别领域的知识储备，我认为以后关于该领域的工作方向有以下几点，我将分别从数据方面和算法方面进行阐述。

数据方面

行人属性识别的数据存在很大的提升空间。事实上，我认为现今行人属性识别在科研界没有其他方向火热的原因，有一部分数据制约的因素。因为如今公开的数据集数据标注存在界限不明，标注错误的现象，目前无论如何设计算法，在基于这些数据的benchmark上也难以有较大的突破，这导致了属性识别领域的文章较难被收录，使部分专注于此的学者们失去驱动力。在今后的行人属性数据的标注中，可以考虑在标注过程中应去除界限不明的属性（这些属性会在训练中影响那些已经收敛好的属性），在标注之前统一所有标注员对某一属性的标注尺度。另外，在标注中考虑添加头部，上半身，下半身的bounding box位置标注，从而可以设计相应的算法利用这些位置信息，提升识别效果（VesPA利用RAP中viewpoint的辅助标注显著提升了效果，而头部，身体的位置也是十分重要的辅助信息）。

算法方面

目前我重新设计的网络结构中，除了少数网络有微弱的效果提升，其余网络均没有效果上的提升。分析原因除了数据上的制约外，我认为还有网络过于复杂导致训练收敛困难的问题。在我的探索中，我主要尝试把识别viewpoint的网络与多分支提取多粒度的思想和pyramid分part的思想进行结合，但是如何将这些思想完美的结合在一起是一个值得深入研究的问题。在实践中，我尝试了多种结合的方式，即使已经删除、简化部分复杂结构，并对各输出节点进行充分的降维，所形成的网络依然较为庞大。另外可能还存在训练参数的设置问题。因为我在这个领域资质尚浅，仅通过训练过程中loss变化分析训练阶段，调整学习率，步长等参数，在这些参数的设置上我很可能没有选取合适的参数组合得以进一步收敛模型。尽管如此，基于我粗浅的见识和思考，还是认为在以下三个方向上设计算法具有最大的提升效果的可能性：

继续研究如何利用viewpoint分类和对图像的多维度分part，尝试把二者组合在一起。这两个思路都被分别证明在行人属性和ReID领域中具有显著的提升效果。在VesPA中，对viewpoint的利用是通过输出3个代表不同方向概率的值到3个代表不同方向的分支上面，但是从直观上感觉，我一直认为这种利用方式过于冗杂。如果能够把代表3个方向的分支去掉，而把viewpoint分类信息以某种形式添加在一条主干分支上面，能够很大程度的降低模型复杂度。但是如何表达viewpoint的分类信息，是继续输出三个显式的值还是以某种编码的方式传回主干，值得深入研究。
Adaptively Weighted Multi-task Deep Network for Person Arribute Classification 这篇论文提出的动态调整某个属性权重的训练trick我认为很适合属性的训练过程。因为众多属性的联合训练确实存在每个属性收敛速度不一样的问题，确实会引发未收敛的属性继续训练影响已收敛的属性的问题。这种动态调整属性权重的trick，我认为很有可能促进模型的收敛程度。
若出现新的数据集，设计算法利用头部、上半身、下半身的位置信息。可以仿照VesPA的思想，首先利用这些信息训练目标检测器，能够检测行人三个部分的位置。再把这些位置信息以某种恰当的形式回传给属性识别网络，辅助预测识别。具体如何融合这些结构，如何传递辅助信息，需要更多的讨论和研究。此外，目标检测器的添加可能会导致速度性能上的降低。

参考及补充材料

Paper: Weakly-supervised Learning of Mid-level Features for Pedestrian Attribute Recognition and Localization
Code: Github
Paper: HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis
Code: Github
Paper: Adaptively Weighted Multi-task Deep Network for Person Attribute Classification
Paper: Attribute Recognition by Joint Recurrent Learning of Context and Correlation
Paper: A Richly Annotated Dataset for Pedestrian Attribute Recognition
Paper: Deep View-Sensitive Pedestrian Attribute Inference in an end-to-end Model
PETA数据集主页:http://mmlab.ie.cuhk.edu.hk/projects/PETA.html
RAP数据集主页: http://rap.idealtest.org/

博客来源：https://craigie1996.github.io/2018/05/11/Pedestrian-Attribute-Recognition