Attribute Recognition by Joint Recurrent Learning of Context and Correlation人体属性论文2017

ICCV2017,论文链接  https://arxiv.org/abs/1709.08553?context=cs

比较老的一篇文章,一些比较老的属性识别论文,对于低质量图片关注度较多,本文针对训练数据规模较小、质量较差的问题进行探讨,实际可借鉴性不强,但是参考下作者的思路,这里简单过一下。

摘要

在监控场景中进行行人属性的识别,主要遇到的挑战是图像质量差,背景复杂,外形变化及属性可能在不同的空间位置,标记的训练样本少。

论文提出JRL模型挖掘属性上下文信息属性间相互关系,提高小样本训练数据和低质量图像的属性识别。

JRL在一张行人图像内学习属性相关性,具体的说是属性预测顺序的相互关联性。

introduction

作者指出早前人体属性靠手工设计的颜色和纹理特征做识别,

解决深度学习方法 属性预测遇到挑战的方法,一是使用属性的相关性和依赖性:如“女性”和“裙子”在一张行人图像中出现的可能性大,为预测提供补充的辅助信息。二是使用视觉上下文信息协助属性识别,如同一场景中不同人具有相同属性,例如滑雪者大多会戴太阳镜。论文将行人之间的上下文信息及行人个体内部属性关联一起建模,提出了属性相关性和上下文的联合递归学习(JRL)。

提出了一个新的RNN 编码-解码网络用于行人属性预测。RNN模型探索了顺序预测约束,挖掘潜在的更丰富的高阶属性相关性。自然语言语句预测就使用了词间相关性。

论文没有使用人体part,监控场景中part比较难检测到。

JRL是一个序列预测模型,将给定行人图像转换为区域序列(下图2 b),属性集转换为有序列表(下图2 c)编码器将固定长度的图像区域序列映射到连续的特征向量。递归的过程是对行人局部空间上下文进行序列编码,及传播区域间上下文信息,这成为人体内部属性上下文建模。此外,JRL加入了行人间相似度上下文(如图2 a),在训练集中查找相似的图像,对其进行编码,通过相似度最大pooling与已编码的图像相结合。这种融合的特征标识用来初始化解码器,解码器将图像特征向量转化为可变长度的属性序列。这种序列到序列的编码及解码过程使得高阶及低阶属性相关学习成为可能。此外,由于属性在图像层面被弱标记,而没有细粒度的局部化,探索了数据驱动的注意力机制找出属性敏感的图像区域,引导解码器到这些图像区域进行特征提取。

作者提出的贡献:

(1) 提出了一个联合循环学习(JRL)方法,行人属性相关性和上下文信息在一个统一的模型。

(2)我们构建了一种能够共同学习图像级上下文信息和属性级序列关联的端到端编解码器体系结构。

 

JRL


属性预测是一个多标签识别问题,JRL的结构如下图所示:

RNN 编码-解码网络,RNN是包含内部隐含状态h ∈ Rd,输入时可变长度的序列X=(x1,...,xt,...),在时间点t,RNN取出X中一个元素xt,更新其隐含状态:

ht = ϕθ ( ht−1, xt)

其中ϕθ是非线性激活函数,使用LSTM作为递归神经元,LSTM是有效的解决梯度消失及发散问题的方法,在时间点t,LSTM使用输入xt和上一状态ht−1∈Rd,ct−1∈Rd更新:

 

算法流程

1. 人体内属性上下文

使用LSTM编码器对每个行人图像进行行人内属性建模,将输入图像映射到固定长度的特征向量。具体的说,输入图像分割成m个水平条状区域,形成自上而下的区域序列。编码器顺序读取图像区域,根据公式(2)更新LSTM编码器隐含状态,编码器的隐含状态z=h en m可认为是整个序列的加和表示。z是上下文向量。重要的是,这允许有选择性地提取和编码不同身体部位之间的空间依赖性,同时通过递归网络传播相关的局部拓扑上下文信息,这得益于LSTM在建模序列元素之间的长期和短期关系方面的强能力。

2. 行人间相似度上下文

。补偿外观模糊和图像质量差的问题,从训练图像视觉上相似的图像中挖掘附加辅助信息,以提供一个人之间的相似上下文约束。搜索前k个相似的图像,对于每个相似的图像I ia,计算上下文信息向量Z ai。将所有的向量作为附加信息集成到z:

其中max(·)定义了对输入图像和top-k样本的所有输入特征向量进行的element-wise最大操作。基于平均的集成方法可能更保守,并降低了引入额外噪声信息的可能性,我们发现基于max的集成方法更有效。这种属性之间相似上下文信息补偿的合理性在于,在解码过程中无法轻易恢复输入图像中丢失或损坏的局部信息,而通过优化解码器,可以很大程度上抑制新引入的局部噪声。

图像表示 和 相似度搜索:
LSTM编码器的输入,使用ImageNet初始化AlexNet,在行人属性训练数据上微调CNN,然后通过其深度特征向量更好地表示行人图像。对于给定行人图像,将第5层卷积层的激活值拆分成m个水平区域,通过池化转化成向量,然后直接concat到一起。

我们使用FC7层的输出作为特征空间,使用L2距离度量进行top-k的相似度搜索。


3. 属性间相关性


行人图像的属性标记序列由所有属性固定的顺序生成。使用z∗初始化解码器隐含状态h de 1,这是将行人间相似上下文引入解码过程。与解码部分相比,h de t 和  yt与上一输出yt−1有关,挖掘高阶属性相关性,即:

 

LSTM更新公式


4. 属性注意力


JRL中加入注意力机制,关注输入区域序列中最相关的部分。通过在编码输出增加一个结构实现,对输入图像序列S=(s1,...,sm)编码器现有一个结构化的输出表示,即,

h en i表示第i个区域的上下文表示,属性注意力的目标是,在解码器预测属性时找到一个优化的权值分布wt=(wt,1,...,wt,i,...,wt,m),即:

逐步上下文标识ztzt重新计算为:

没有注意力时,z是常值。
Word Embedding将上一时的属性预测作为下一次预测的递归反馈。

模型训练和前向

本文属性序列顺序的探讨,不同的顺序对应不同的属性关系,属性预测的顺序是10个顺序的集成:罕见优先、频繁优先、自上而下和自下而上(用于编码体拓扑结构信息)、全局-局部和局部-全局(用于交互粗粒度和细粒度属性)以及4个随机顺序(用于合并随机性)。

模型训练。对于集成中的每个属性顺序,训练一个特定顺序的JRL模型。通过反向传播端到端学习任何JRL模型,从而共同优化编码器和解码器LSTM。我们利用softmax 交叉熵损失来训练属性标签。

为了避免噪声从RNN反向传播到CNN,我们没有将CNN图像特征表示网络与JRL RNN编解码器一起训练。

每个JRL模型都针对无重复的图片属性序列进行了优化。因此,重复预测在本质上是被惩罚和劝阻的。

推理模型。每个训练过的JRL模型给出一个测试图像的多属性预测。我们为每个测试图像生成一组10个预测。为了推断最终的预测,我们采用多数投票方案。

 

实验结果

 

参考链接:https://blog.csdn.net/cv_family_z/article/details/78286462

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值