Attribute Recognition by Joint Recurrent Learning of Context and Correlation人体属性论文2017-CSDN博客

本文链接：https://blog.csdn.net/chanbo8205/article/details/109654044

ICCV2017，论文链接 https://arxiv.org/abs/1709.08553?context=cs

比较老的一篇文章，一些比较老的属性识别论文，对于低质量图片关注度较多，本文针对训练数据规模较小、质量较差的问题进行探讨，实际可借鉴性不强，但是参考下作者的思路，这里简单过一下。

摘要

在监控场景中进行行人属性的识别，主要遇到的挑战是图像质量差，背景复杂，外形变化及属性可能在不同的空间位置，标记的训练样本少。

论文提出JRL模型挖掘属性上下文信息及属性间相互关系，提高小样本训练数据和低质量图像的属性识别。

JRL在一张行人图像内学习属性相关性，具体的说是属性预测顺序的相互关联性。

introduction

作者指出早前人体属性靠手工设计的颜色和纹理特征做识别，

解决深度学习方法属性预测遇到挑战的方法，一是使用属性的相关性和依赖性：如“女性”和“裙子”在一张行人图像中出现的可能性大，为预测提供补充的辅助信息。二是使用视觉上下文信息协助属性识别，如同一场景中不同人具有相同属性，例如滑雪者大多会戴太阳镜。论文将行人之间的上下文信息及行人个体内部属性关联一起建模，提出了属性相关性和上下文的联合递归学习(JRL)。

提出了一个新的RNN 编码-解码网络用于行人属性预测。RNN模型探索了顺序预测约束，挖掘潜在的更丰富的高阶属性相关性。自然语言语句预测就使用了词间相关性。

论文没有使用人体part，监控场景中part比较难检测到。

JRL是一个序列预测模型，将给定行人图像转换为区域序列（下图2 b），属性集转换为有序列表（下图2 c）。编码器将固定长度的图像区域序列映射到连续的特征向量。递归的过程是对行人局部空间上下文进行序列编码，及传播区域间上下文信息，这成为人体内部属性上下文建模。此外，JRL加入了行人间相似度上下文（如图2 a），在训练集中查找相似的图像，对其进行编码，通过相似度最大pooling与已编码的图像相结合。这种融合的特征标识用来初始化解码器，解码器将图像特征向量转化为可变长度的属性序列。这种序列到序列的编码及解码过程使得高阶及低阶属性相关学习成为可能。此外，由于属性在图像层面被弱标记，而没有细粒度的局部化，探索了数据驱动的注意力机制找出属性敏感的图像区域，引导解码器到这些图像区域进行特征提取。

作者提出的贡献：

(1) 提出了一个联合循环学习(JRL)方法，行人属性相关性和上下文信息在一个统一的模型。

(2)我们构建了一种能够共同学习图像级上下文信息和属性级序列关联的端到端编解码器体系结构。

JRL

属性预测是一个多标签识别问题，JRL的结构如下图所示：

RNN 编码-解码网络，RNN是包含内部隐含状态h ∈ Rd，输入时可变长度的序列X=(x1,...,xt,...)，在时间点t，RNN取出X中一个元素xt，更新其隐含状态：

ht = ϕθ ( ht−1, xt)

其中ϕθ是非线性激活函数，使用LSTM作为递归神经元，LSTM是有效的解决梯度消失及发散问题的方法，在时间点t，LSTM使用输入xt和上一状态ht−1∈Rd，ct−1∈Rd更新：

算法流程

1. 人体内属性上下文

使用LSTM编码器对每个行人图像进行行人内属性建模，将输入图像映射到固定长度的特征向量。具体的说，输入图像分割成m个水平条状区域，形成自上而下的区域序列。编码器顺序读取图像区域，根据公式（2）更新LSTM编码器隐含状态，编码器的隐含状态z=h en m可认为是整个序列的加和表示。z是上下文向量。重要的是，这允许有选择性地提取和编码不同身体部位之间的空间依赖性，同时通过递归网络传播相关的局部拓扑上下文信息，这得益于LSTM在建模序列元素之间的长期和短期关系方面的强能力。

2. 行人间相似度上下文

。补偿外观模糊和图像质量差的问题，从训练图像视觉上相似的图像中挖掘附加辅助信息，以提供一个人之间的相似上下文约束。搜索前k个相似的图像，对于每个相似的图像I ia，计算上下文信息向量Z ai。将所有的向量作为附加信息集成到z：

其中max(·)定义了对输入图像和top-k样本的所有输入特征向量进行的element-wise最大操作。基于平均的集成方法可能更保守，并降低了引入额外噪声信息的可能性，我们发现基于max的集成方法更有效。这种属性之间相似上下文信息补偿的合理性在于，在解码过程中无法轻易恢复输入图像中丢失或损坏的局部信息，而通过优化解码器，可以很大程度上抑制新引入的局部噪声。

图像表示和相似度搜索：
LSTM编码器的输入，使用ImageNet初始化AlexNet，在行人属性训练数据上微调CNN，然后通过其深度特征向量更好地表示行人图像。对于给定行人图像，将第5层卷积层的激活值拆分成m个水平区域，通过池化转化成向量，然后直接concat到一起。

我们使用FC7层的输出作为特征空间，使用L2距离度量进行top-k的相似度搜索。

3. 属性间相关性

行人图像的属性标记序列由所有属性固定的顺序生成。使用z∗初始化解码器隐含状态h de 1，这是将行人间相似上下文引入解码过程。与解码部分相比，h de t 和 yt与上一输出yt−1有关，挖掘高阶属性相关性，即：

LSTM更新公式

4. 属性注意力

JRL中加入注意力机制，关注输入区域序列中最相关的部分。通过在编码输出增加一个结构实现，对输入图像序列S=(s1,...,sm)编码器现有一个结构化的输出表示，即，

h en i表示第i个区域的上下文表示，属性注意力的目标是,在解码器预测属性时找到一个优化的权值分布wt=(wt,1,...,wt,i,...,wt,m)，即：

逐步上下文标识ztzt重新计算为：

没有注意力时，z是常值。
Word Embedding将上一时的属性预测作为下一次预测的递归反馈。