行人属性“Attribute Recognition by Joint Recurrent Learning of Context and Correlation”

最新推荐文章于 2024-07-16 13:34:36 发布

cv_family_z

最新推荐文章于 2024-07-16 13:34:36 发布

阅读量3.9k

点赞数

分类专栏：行人属性深度学习 ICCV2017

本文链接：https://blog.csdn.net/cv_family_z/article/details/78286462

版权

应该是比较新的属性学习文章了，ICCV2017。在监控场景中进行行人属性的识别，主要遇到的挑战是图像质量差，外形变化及属性可能在不同的空间位置，标记的训练样本少。论文提出JRL模型挖掘属性上下文信息及属性间相互关系提升识别准确率。JRL在一张行人图像内学习属性相关性，具体的说是属性预测顺序的相互关联性。

解决属性预测遇到挑战的方法，一是使用属性的相关性：如“女性”和“裙子”在一张行人图像中出现的可能性大。二是使用视觉上下文信息协助属性识别，如同一场景中不同人具有相同属性。论文将行人之间的上下文信息及行人个体内部属性关联一起建模，学习一个一体化的网络。提出了一个新的RNN 编码-解码网络用于行人属性预测。RNN模型探索了顺序预测约束，挖掘潜在的更丰富的高阶属性相关性。自然语言语句预测就使用了词间相关性。论文没有使用人体part，监控场景中part比较难检测到。

JRL是一个序列预测模型，将给定行人图像转换为区域序列，属性集转换为顺序的列表。编码器将固定长度的图像区域序列映射到连续的特征向量。递归的过程是对行人局部空间上下文进行序列编码，及传播区域间上下文信息，这成为人体内部属性上下文建模。此外，JRL加入了行人间相似度上下文，在训练集中查找相似的图像，编码并使用相似度最大池化组合。这种融合的特征标识用来初始化解码器，解码器将图像特征向量转化为可变长度的属性序列。这种序列到序列的编码及解码过程使得高阶及低阶属性相关学习成为可能。此外，属性是没有具体位置的弱标记，探索了数据驱动的注意力机制找出属性敏感的图像区域，知道解码器在这些位置提取特征。

JRL
属性预测是一个多标签识别问题，JRL的结构如下图所示：
这里写图片描述
RNN 编码-解码网络，RNN是包含内部隐含状态 $h\in R^d$ ，输入时可变长度的序列 $X=(x_1,...,x_t,...)$ ，在时间点t，RNN取出X中一个元素 $x_t$ ，更新其隐含状态：
$h_t=\phi_{\theta}(h_{t-1},x_t)$
其中 ϕθ