attention retain_Attention-Aware Compositional Network

Author: CFhM_R

​ Mail: CFhM_R@outlook.com

写在前面

本文介绍了一种Re-ID中利用part和pose信息来提升accuracy的方法,一个highlight是使用了关键点技术,也恰如作者在文中给出的 state-of-art 的评价,该方法巧妙地解决了传统的RoI方式进行part采样导致的干扰过多的问题,并且在网络结构上也有一定的创新。

传统方法的问题

文章开篇即阐述了传统的Re-ID面临的问题:复杂的背景、多样的光照条件、不可控的相机设置参数、严重的遮挡关系以及多变的姿态,而观测角度的不同和pose的差异会使传统的分格或分区(patches and stripes)的part alignment方式产生较大的误差,即有种不能”因地制宜“的感觉。

RoI Issues

文章也举出了简单的例子:如下图中对同一个id的probe和gallery的leg-part的选取,可以发现(b)中的人物的腿部框选区要明显更加符合”leg“的设定,和这也是局限于目前的patches / stripes / RoI 方法都是以矩形框作为采样区域,同时带来的还有(a)中大量北京因素对part info的干扰。

而本文中提出的方法则是使用Pose-guided Part Attention来代替传统的RoI,可以很好的解决背景因素以及相邻的肢体带来的干扰,一个简单的demo如下图(c)彩色区域所示。

遮挡物带来的问题

遮挡物对于行人检索的影响有积极也有消极,所以要分开去看。如下图中的例子,首先(d)中遮挡指的是手臂对躯干的遮挡,而躯干衣服上的logo可以作为这一对轨迹识别的feature的主要来源(by means),因此此时手臂的遮挡就产生了negative的影响;而相反的例子则是(f)中的背包,它对躯干这个part造成了完全的遮挡,但是背包恰恰成为了这个id的一个凸显的特征,因此这个背包带来的是positive的影响。

文章对遮挡采取3种处理措施:对带来消极影响的遮挡物采取的自然是弱化其在最终的feature map中的权重,而弱化的”度“又分两种对于(f)中的手臂对躯干的遮挡,由于没有完全遮挡,因此这部分仅仅是"弱化"(weaken)

对于(e)中,pose的改变导致躯干消失,变为背部,可以理解为一种完全的遮挡,文章采取的处理方式是”消除“(eliminate)

对产生积极影响的自然采取的是”保留“甚至提升比重(retain)

Attention-Aware Composition Network

综上所述,为了解决行人检索中part信息无法对应对齐(misalignment)以及遮挡物的问题(occlusions),文章提出了AACN这样一种网络结构,如下图。

可以看到AACN大体分两个部分,上部为Pose-guided Part Attention 模块,用于提取Part信息,下面则是AACN的主体,Attention-aware Feature Composition Model,AFC部分会先抽取整个图片的feature,再结合PPA给出的attention信息和visibility score来调整part的权重,最终得出轨迹的feature map。

Pose-guided Part Attention

文章将人体的part分为两个部分——rigid part 和 non-rigid part,即可形变和不可形变(不知道怎么翻译了……)部分,non-rigid part包含四肢和脖子,rigid part则是头肩、上半躯干以及下半躯干(腰到膝盖),详见图。

PPA参考了RPN提供的关键点分类,定义了人体的14个关键点,并通过关键点的连线以及关键点围成的凸包来确定各个part,通过神经网络在ground-truth周围学习part的大致范围,最终可以如上图demo中给出的样子较准确地描绘出part所在的区域,减少了大量的干扰信息。

由此PPA分出了3支,分别学习关键点信息、rigid part 和 non-rigid part 的信息,而PPA整体分两个部分,第一部分是独立的预测上述三部分的信息,给出结果。而第二部分则是对第一部分的三类结果进行融合修正,给出最终的结果。

关键点信息的ground truth由MPII的datasets定义的14个关键点标准给出,方法是在标准位置周围的高斯分布(正态)生成ground truth范围,并且计算MSE作为Loss。

non-rigid part的ground truth 为指定的两关键的连线的宽度为的一段,attention map为01矩阵。

rigid part的ground truth为指定关键点点集的凸包,attention map同样是01矩阵。

最终还要产生一个visibility score来辅助权衡各个part的权重,由各个部分的attention map的”强弱“来体现。

Attention-Aware Feature Composition

Global Context Network

AFC部分最开始是一个很base的网络用来抽取全局的feature,文章采用的是GoogleNet,比较trick的改动的是在inception_5b/output层后加了一个128通道的​的卷积层,输入图片大小为​,可以看到比一般广泛采用的​要大,可以推测这样改动也是为了获得更好的视域,来适应RPN的关键点(避免太过密集等等)。

Attention-Aware Feature Alignment

Global feature map和Part feature map的融合文章采用了一种看起来很”粗暴“的方法——G-feature和每个P-feature(128通道,经过max-归一化的)做H-Product,之后进行globally average pooling1 ,将Part p的feature maps变成该part的一个特征向量,最后将各个part的向量连接起来就是最终的向量。

[1] 出自network in network,为了解决全连接问题,简单说就是将feature map所有的特征值均一池化得到一个特征点,最后将这些点组成一个特征向量送进softmax计算。

Weighted Feature Composition

考虑到各个part所占的比重随着pose、遮挡情况应当不同,文章将attention map和visibility score连接后通过一个全连接层(用1*1卷积层实现的)来生成一个权重向量,最终的feature 由 ,其中指卷积操作,为各个part的迭代变量,作者对这部分的讲述并不详细。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值