对于这两天读的AACN这篇文章做个简单的笔记,自己尚且还存留着许多的困惑,希望在接下来的学习中能够掌握更多的部分,如果有时间我会回过头来再写一次。
Person re-identification (ReID)是用来从不同的摄像机场景中通过视觉信息来进行行人识别的技术。由于行人具有姿态差别较大、背景复杂不固定和目标重叠等问题,该技术的实现具备一定的困难性。最近,通过周围场景定位进行姿态估计在准确度上有了较大的提升。它主要是采用姿态估计的结果来解决姿态差异,背景差异等问题。并且这样的尝试在ReID的结果上取得了较大的进步。
在这篇文章中,作者提出了一种称为AACN的处理框架用来进行行人识别。它主要由PPA(Pose-guided Part Attention)和AFC(Attention-aware Feature Composition)这两个部分组成。PPA主要负责学习并提取出行人特征图中由用的部分。同时会计算出姿态估计可视化分数值同来解决AFC模型中存在的部分遮掩问题。作者同时在大量的数据集例如Market-1501, CUHK03, CUHK01, SenseReID,CUHK03-NP and DukeMTMC-reID做了大量的实验来证明AACN这个框架的有效性。
什么是REID?
简单说就是给出一张包含目标人物的图片以及一个包含大量图片的数据集,REID能够依据与目标图片的相似度对数据集进行排序。这个技术在查找失踪人口,捉拿逃犯等领域有着十分广泛的应用。
下面这张图给出了用于提升REID准确性常见的几种方法,很明显文章中提出的PPA提取方法拥有最高的准确性,并且几乎没有引入任何的背景噪声。这是因为传统的方法通常会采用矩形方框或者块去标注目标部分,而AACN则通过PPA类似于填充的方法避免了这个问题。
1、PPA
上面提到AACN主要是由PPA以及AFC构成,这里我首先将一下PPA。PPA是一个更够准确捕获目标部分的置信图,效果如上图的ours所示,他能够避免背景噪声以及内容混叠所造成的影响。然后将生成的part attention用在特征图上就能提取出我们需要的部分从而避免背景干扰。PPA部分主要是将身体分为了三个部分(文章中说的是rigid parts and non-rigid parts两个部分),这里我认为依据文章以及模型中所示,加上关键点分为三个部分会比较合适。
在PPA的模型建立部分,主要是利用了一个两个stage的神经网络,其中每个stage又分为三个分支进行分开训练。第一个stage对R、N、K三个参数进行分开预测,预测模型的base利用的是VGG19第十层映射出来的特征图,第二个部分则将第一层预测的三个参数同时作为输出,对R、N、K三个参数进行重新映射。PPA模型的损失方程是:
其中以及分别表示关键点,躯干部分,肢干部分置信图的损失函数,而u1,u2则表示了不同部分的损失函数对于整个大的损失函数他的重要性。关于上述三个损失函数的定义,读者可以自行查阅文章。
2、AFC
文章中使用AFC来学习如何标志且重新定义身体各个部分的特征图。AFC由GCN(Global Context Network),Attention-Aware Feature Alignment以及Weighted Feature Composition三个部分组成。在第一个部分,一张行人的照片作为输入,进入到GCN中用来提取出全局的特征图。结果与统一图片输入产生的part attention输入到第二部分中去,产生part-attention-aware 特征并且将他们与所有图片级联。然后在第三部中重新定义权重,并且生成最后的特征向量。
2.1 GCN
GCN是用来作为一个全局行人特征提取的基础网络的。我们在Googlenet的基础上搭建了GCN。同时为了减少接下来AFC的计算量,在GCN中,我们增加了一些256通道3*3的卷积核。同时为了更好的使用适应行人图片的宽高比,将输入图片大小从224*224调整为448*192.
文中作者提到GCN提前训练,然后与整体模型一起计算。同时他的初始化是采用了ImageNet上的预训练参数进行初始化,新添加的层则是采用随机初始化的策略。
2.2 Attention-Aware Feature Alignment
之前提到,全局特征会受身体部分错误标志的结果影响。所以文章中在3.1部分提出了PPA用来提取出part attention,然后我们可以在这一部分,将PPA训练出来的part attention与GCN输出的全局特征进行联合输入。首先对输出的attention part进行归一化,然后将它与GCN的输出global feature进行哈达码积运算,然后经过global average pooling 产生fp,最后将p张的结果组合在一起生成fa,大小为p*256*1*1。
2.3 Weighted Feature Composition
由于行人在姿态上存在差异,受重叠的影响并且有可能包含许多有害的部分,所以每个部分的重要性应该在匹配过程中单独调整。得益于这些观察,文章中提出了权重矩阵W用来计量每个部分的重要性。就是将上面的fa输出以及attention产生的分数contact,通过一个1*1的全连接层产生权重,权重一共有p个,然后将每个部位的权重乘到对应的fp
总的来说,AACN这个框架整合了PPA和ACF这两个部分用来提取每张输入图像中的人物特征。在任务ReID的应用中,给出一系列图片和目标图片,会生成图片库中每张图片与目标图片的距离,然后依据这个距离对目标图片进行排序。目标人物可以在数据集中的前几张图片中迅速发现。
水平有限,这篇是学习person ReID阅读的第一篇文章,如有失误,还希望大家指出。
学术交流可以关注我的公众号,后台留言,粉丝不多,看到必回。卑微小钱在线祈求